Raid 5 Probleme

pram · 15. November 2006

So heute war es soweit, eine (bzw. evtl 2) meiner 4 Platten gibt anscheinend wieder den Geist auf.
Auf jeden Fall lässt sich das Raid5 aus hda2/hdc2/hde1/hdg1 nicht mehr mounten, weil die beiden Platten die am 2. Controller hängen fast gleichzeitig einen Fehler lieferten. (evtl ist es auch ein Controllerfehler gewesen)

Ich habe (bis auf einen Neustart) noch keine Versuche unternommen, das Array wieder zum Laufen zu bringen

smart hat keine Fehler geloggt und badblocks hat bis jetzt auch noch keinen Fehler gemeldet (läuft noch)

Wie kann ich das Array wieder starten ohne gleich wieder einen Daten-Supergau zu verursachen.

Hier mal meine Konfiguration:

Code

/dev/hda1   *           1        6079    48829536   fd  Linux raid autodetect
/dev/hda2            6080       30337   194852385   fd  Linux raid autodetect


/dev/hdc1   *           1        6079    48829536   fd  Linux raid autodetect
/dev/hdc2            6080       30337   194852385   fd  Linux raid autodetect


/dev/hde1               1       24259   194852385   fd  Linux raid autodetect
/dev/hde2           24259       24321      506016   82  Linux swap / Solaris


/dev/hdg1               1       24259   194852385   fd  Linux raid autodetect
/dev/hdg2           24259       24321      506016   82  Linux swap / Solaris

Alles anzeigen

und /proc/mdstat

Code

cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4] [faulty]
md1 : active raid1 hdc1[1] hda1[0]
      48829440 blocks [2/2] [UU]


md2 : inactive hda2[1] hde1[3] hdc2[2] hdg1[0]
      779409152 blocks


unused devices: <none>

Alles anzeigen

sowie /etc/mdadm/mdadm.conf

Code

DEVICE /dev/hda1 /dev/hdc1 /dev/hde1 /dev/hdg1 /dev/hda2 /dev/hdc2
ARRAY /dev/md2 level=raid5 num-devices=4 spares=1 UUID=80dcf864:ac45fa00:59e21512:90e30e95
ARRAY /dev/md1 level=raid1 num-devices=2 UUID=c23f52f6:043b4645:59e21512:90e30e95
MAILADDR praml

Und das ist das Log:

Code

Nov 15 15:02:00 vdr kernel: hde: status error: status=0x00 { }
Nov 15 15:02:00 vdr kernel: ide: failed opcode was: 0xea
...
Nov 15 15:02:00 vdr kernel: end_request: I/O error, dev hde, sector 389704639
Nov 15 15:02:00 vdr kernel: raid5: Disk failure on hde1, disabling device. Operation continuing on 3 devices
...
Nov 15 15:02:29 vdr kernel: hdg: irq timeout: status=0xd0 { Busy }
Nov 15 15:02:29 vdr kernel: ide: failed opcode was: 0xea
Nov 15 15:02:29 vdr kernel: hdg: status timeout: status=0xd0 { Busy }
Nov 15 15:02:29 vdr kernel: ide: failed opcode was: unknown
Nov 15 15:02:29 vdr kernel: hdg: DMA disabled
Nov 15 15:02:29 vdr kernel: PDC202XX: Secondary channel reset.
Nov 15 15:02:29 vdr kernel: PDC202XX: Primary channel reset.
Nov 15 15:02:29 vdr kernel: BUG: soft lockup detected on CPU#0!
...


Nov 15 15:04:23 vdr kernel: ide3: reset timed-out, status=0xd0
Nov 15 15:04:23 vdr kernel: end_request: I/O error, dev hdg, sector 242248639
Nov 15 15:04:23 vdr kernel: raid5: Disk failure on hdg1, disabling device. Operation continuing on 2 devices
Nov 15 15:04:23 vdr kernel: end_request: I/O error, dev hdg, sector 242248647
Nov 15 15:04:23 vdr kernel: end_request: I/O error, dev hdg, sector 242248655
Nov 15 15:04:23 vdr kernel: end_request: I/O error, dev hdg, sector 194933143
Nov 15 15:04:23 vdr kernel: raid5:md2: read error not correctable (sector 194933080 on hdg1).
Nov 15 15:04:23 vdr kernel: end_request: I/O error, dev hdg, sector 194933151
Nov 15 15:04:23 vdr kernel: raid5:md2: read error not correctable (sector 194933088 on hdg1).
Nov 15 15:04:23 vdr kernel: end_request: I/O error, dev hdg, sector 194933159
Nov 15 15:04:23 vdr kernel: raid5:md2: read error not correctable (sector 194933096 on hdg1).
Nov 15 15:04:23 vdr kernel: end_request: I/O error, dev hdg, sector 242248183
...
Nov 15 15:04:23 vdr kernel: end_request: I/O error, dev hdg, sector 242248887
Nov 15 15:04:23 vdr kernel: RAID5 conf printout:
Nov 15 15:04:23 vdr kernel: --- rd:4 wd:2 fd:2
Nov 15 15:04:23 vdr kernel: disk 0, o:0, dev:hdg1
Nov 15 15:04:23 vdr kernel: disk 1, o:1, dev:hda2
Nov 15 15:04:23 vdr kernel: disk 2, o:1, dev:hdc2
Nov 15 15:04:23 vdr kernel: RAID5 conf printout:
Nov 15 15:04:23 vdr kernel: --- rd:4 wd:2 fd:2
Nov 15 15:04:23 vdr kernel: disk 1, o:1, dev:hda2
Nov 15 15:04:23 vdr kernel: disk 2, o:1, dev:hdc2
Nov 15 15:04:23 vdr kernel: I/O error in filesystem ("md2") meta-data dev md2 block 0x22db53d8       ("xlog_iodone") error 5 buf count 12288
Nov 15 15:04:23 vdr kernel: xfs_force_shutdown(md2,0x2) called from line 956 of file fs/xfs/xfs_log.c.  Return address = 0xc01eaf2d
Nov 15 15:04:23 vdr kernel: Filesystem "md2": Log I/O Error Detected.  Shutting down filesystem: md2
Nov 15 15:04:23 vdr kernel: Please umount the filesystem, and rectify the problem(s)

Alles anzeigen

knebb · 15. November 2006

Zitat

Original von pram
md2 : inactive hda2[1] hde1[3] hdc2[2] hdg1[0]
779409152 blocks

Das ist das Array, um das ees geht, richtig? Und da ist ein RAID5, ja? Was sagt den das Logfile während des Bootens? Da steht vmtl. was von Superblock oder so.
Kannst Du die Platten momentan wieder ansprechen? Wenn ja, kriegen wir das wieder hin

pram · 16. November 2006

aalso. Anscheinend hat wirklich der Controller (Promise FastTrak100) abgedankt. (ich hoffe dass er die Platten/Filesystem nicht mitgerissen hat)
Der VDR bootet nämlich nicht mehr wenn das Teil drin steckt.

Habe nun alle Platten an den internen controller angeschlossen, die Laufwerksnamen haben sich dementsprechend geändert:
hda->hda
hdc->hdb
hde->hdc
hdg->hdd

Die Platten scheinen noch zu gehen, smart-Test zeigt auch nix aussergewöhnliches.

Ich hab also nun folgende Raids:
md1: Raid1 50GB über hda1, hdb1 (das geht wieder)
md2: Raid5 je 200GB über hda2, hdb2, hdc1, hdd1 (das ist der Problemfall)
Das Problem ist, dass hdc und hdd nicht mehr "fresh" sind. Siehe Log unten.
Ich hab schon ein wenig gegoogled und gefunden dass es mit "mdadm --force --assemble /dev/md2 ..." klappen soll. (Aber ich hab ehrlich gesagt Angst, dass das Array nach dem Experiment dann leer ist )

Gruß
Roland

Code

Nov 16 12:18:37 vdr kernel: md: autorun ...
Nov 16 12:18:37 vdr kernel: md: considering hdd1 ...
Nov 16 12:18:37 vdr kernel: md:  adding hdd1 ...
Nov 16 12:18:37 vdr kernel: md:  adding hdc1 ...
Nov 16 12:18:37 vdr kernel: md:  adding hdb2 ...
Nov 16 12:18:37 vdr kernel: md: hdb1 has different UUID to hdd1
Nov 16 12:18:37 vdr kernel: md:  adding hda2 ...
Nov 16 12:18:37 vdr kernel: md: hda1 has different UUID to hdd1
Nov 16 12:18:37 vdr kernel: md: created md2
Nov 16 12:18:37 vdr kernel: md: bind<hda2>
Nov 16 12:18:37 vdr kernel: md: bind<hdb2>
Nov 16 12:18:37 vdr kernel: md: bind<hdc1>
Nov 16 12:18:37 vdr kernel: md: bind<hdd1>
Nov 16 12:18:37 vdr kernel: md: running: <hdd1><hdc1><hdb2><hda2>
Nov 16 12:18:37 vdr kernel: md: kicking non-fresh hdd1 from array!
Nov 16 12:18:37 vdr kernel: md: unbind<hdd1>
Nov 16 12:18:37 vdr kernel: md: export_rdev(hdd1)
Nov 16 12:18:37 vdr kernel: md: kicking non-fresh hdc1 from array!
Nov 16 12:18:37 vdr kernel: md: unbind<hdc1>
Nov 16 12:18:37 vdr kernel: md: export_rdev(hdc1)
Nov 16 12:18:37 vdr kernel: raid5: device hdb2 operational as raid disk 2
Nov 16 12:18:37 vdr kernel: raid5: device hda2 operational as raid disk 1
Nov 16 12:18:37 vdr kernel: raid5: not enough operational devices for md2 (2/4 failed)
Nov 16 12:18:37 vdr kernel: RAID5 conf printout:
Nov 16 12:18:37 vdr kernel: --- rd:4 wd:2 fd:2
Nov 16 12:18:37 vdr kernel: disk 1, o:1, dev:hda2
Nov 16 12:18:37 vdr kernel: disk 2, o:1, dev:hdb2
Nov 16 12:18:37 vdr kernel: raid5: failed to run raid set md2
Nov 16 12:18:37 vdr kernel: md: pers->run() failed ...
Nov 16 12:18:37 vdr kernel: md: do_md_run() returned -5
Nov 16 12:18:37 vdr kernel: md: md2 stopped.
Nov 16 12:18:37 vdr kernel: md: unbind<hdb2>
Nov 16 12:18:37 vdr kernel: md: export_rdev(hdb2)
Nov 16 12:18:37 vdr kernel: md: unbind<hda2>
Nov 16 12:18:37 vdr kernel: md: export_rdev(hda2)
Nov 16 12:18:37 vdr kernel: md: considering hdb1 ...
Nov 16 12:18:37 vdr kernel: md:  adding hdb1 ...
Nov 16 12:18:37 vdr kernel: md:  adding hda1 ...
Nov 16 12:18:37 vdr kernel: md: created md1
Nov 16 12:18:37 vdr kernel: md: bind<hda1>
Nov 16 12:18:37 vdr kernel: md: bind<hdb1>
Nov 16 12:18:37 vdr kernel: md: running: <hdb1><hda1>
Nov 16 12:18:37 vdr kernel: raid1: raid set md1 active with 2 out of 2 mirrors
Nov 16 12:18:37 vdr kernel: md: ... autorun DONE.

Alles anzeigen

knebb · 16. November 2006

Zitat

Original von pram
Das Problem ist, dass hdc und hdd nicht mehr "fresh" sind. Siehe Log unten.

Yepp. Ist klar. Das RAID-System konnte nur noch auf die beiden ersten den Superblock schreiben- damit sind die beiden anderen veraltet.
Da geht so einfach dann nix mehr...

Zitat

Ich hab schon ein wenig gegoogled und gefunden dass es mit "mdadm --force --assemble /dev/md2 ..." klappen soll. (Aber ich hab ehrlich gesagt Angst, dass das Array nach dem Experiment dann leer ist )

Ich kenne mdadm recht wenig, da ich immer mit den (älteren) raidtools arbeite. Da gibt es aber auch einen Switch:

Code

mkraid /dev/md2 --dangerous-no-resync

Das aktualisiert die Superblocks auf den Platten, führt aber keine Synchronisation durch. Das wird vielleicht dasselbe sein wie das bei mdadm? Danach ist das Raid wieder da.
Du solltest vorher die Superblöcke auf hdc und hdd prüfen. Wenn es da Unterschiede gibt, lasse das RAID vorerst ohne die ältere Platte starten und binde die dann danach erst ein.

Ich habe den Switch selbst bei genau solchen Problemen eingesetzt und konnte die Array jedesmall problemlos wieder zum Leben erwecken. Danach ist jedoch ein fsck Pflicht!

pram · 16. November 2006

juhuuu

also ein "mdadm --assemble --force /dev/md2 /dev/hda2 /dev/hdb2 /dev/hdc1 /dev/hdd1" hat das Array wieder in den degraded status versetzt. (hdc fehlte)
"mdadm /dev/md2 -a /dev/hdc1" synced das Array wieder.

nur ob das Filesystem in Ordnung ist, weiß ich noch nicht. Sieht zwar ganz in Ordnung aus, aber xfs_check hat sich gleich mal aufgehängt (xfs_db hat den ganzen speicher weggefressen, dass der Kernel schon angefangen hat, Prozesse zu killen)

Gruß
Roland

Raid 5 Probleme

Jetzt mitmachen!

Teilen

Benutzer online in diesem Thema