Help needed: Software-RAID ist weg

  • Wir gehen jetzt mal von einem Software-Problem aus ... OK?


    Frage: Was bringt jetzt


    cat /proc/mdstat


    zurück ?


    Bei Hardware-RAIDs von unterschiedlichen Herstellern kann ich den StartUp-Timeout auch für ältere Festplatten einstellen/hochfahren.


    Nun hat Sigi ja relativ neue WD-HDs ... s.o. Anfang des Jahres ... da sollte dieses Verhalten eigentlich noch nicht auftreten. Kann man diese StartUp-Wartezeit dann trotzdem md-software-seitig irgendwie hochziehen ?


    Nur so interessehalber


    Miru

    VDR-Server 2.0.6 yavdr-testing-repo - Kubuntu 12.04 LTS/64 - I-Dual-Core 2,2 GHz, 2 GB RAM, SATA 500GB, via NFS 2,9 TB HW-RAID5 an Sol10Sparc mit ZFS, 1x FF-TT 2.3 modded, 1x FF-TT 1.5, 2x TT-1600, via DLAN AVpro/Coax 4x 2x MVP Ver.D3A - VOMP 0.4.0 mit Media, MVP-Dongle 0.4.0
    Arbeitsplatz: 12.04 LTS/64 2.0.6
    yavdr-testing-repo - I-Dual-Core 2,4 GHz, 4 GB RAM, 2x 1TB, 2x TT-1600
    WAF-VDR-Client: openelec-3.2.4/XBMC-12.2-Frodo/ alternativ yavdr 0.5.0a: PulseEight-USB-CEC-Adapter, ZBOX-HD-ID41: 4GB RAM, 64GB SSD, 16GB Patriot-USB-Stick am Samsung UE37D5700 (gehackt) für TimeShift direkt am TV ohne VDR-Zugriff


  • fileserver2:~# cat /proc/mdstat
    Personalities : [raid6] [raid5] [raid4]
    md0 : active raid5 sde1[2] sdd1[1] sdc1[0]
    976767872 blocks level 5, 64k chunk, algorithm 2 [3/3] [UUU]


    unused devices: <none>
    fileserver2:~#

  • Zitat

    Wir gehen jetzt mal von einem Software-Problem aus ... OK?


    Das ist nur eine mögliche Variante ;)


    ... ich hatte den gleichen Fall auch schon, dass eine Platte aus dem Verbund ausscherte und nachdem ich sie manuell wieder zugefügt hatte, war es plötzlich ein Spare-drive.


    Das kann z.B. passieren, wenn bei der Platte (durch HW-Defekt oder warum auch immer) die Raid-ID nimmer zu den anderen Platten passt. Ist also der gleiche Fall, als wenn man nach dem Ausfall einer Platte eine neue hinzufügt.
    Wenn man dann nicht aufpasst, kann es passieren, dass das Array kaputt-synchronisiert wird.


    Das Gleiche ist mir bei HW-Raid auch schon passiert - deshalb würde ich hinter "Software-Problem" mal ein Fragezeichen setzen.


    Zitat

    ... da sollte dieses Verhalten eigentlich noch nicht auftreten.


    Hallo - der Ausfall einer Platte basiert auf Wahrscheinlichkeit. Jemand der zum ersten Mal einen Dart-Pfeil wirft, sollte normalerweise nicht ins Zentrum treffen - und doch kommt es vor.
    Mir ist ne Platte schon mal innerhalb der ersten 3 Wochen nach dem Kauf abgeraucht.
    Da sacht natürlich jeder: kann nicht sein, darf nicht sein - hey, shit happens :schiel


    sigi
    Ich würde an Deiner Stelle auf jeden Fall schon mal 1-n Ersatzplatten besorgen.
    Dann den Rechner mal ausschalten und "kalt" werden lassen.
    Dann einschalten.
    Wenn danach "cat /proc/mdstat" dreimal ein "U" anzeigt, kannst Du die Ersatzplatten noch eine Weile in den Schrank legen.
    Trotzdem würde ich an Deiner Stelle min. einmal täglich die Ausgabe von "cat /proc/mdstat" kontrollieren.
    Ist bei mir der erste Befehl nach dem Anmelden, wenn ich ne Kiste mit Raid hochfahre.


    Gruß Gero

    Ich bin verantwortlich für das, was ich schreibe, nicht für das, was Du verstehst!

  • geronimo


    Über welche HW-RAIDs reden wir ... unterhalb 5-stellig € oder drüber ?


    Aber zurück zum Thema: Bei SDS, welches ich immer nur zum Spiegeln von Bootplatten in Solaris-Server eingesetzt habe, ist mir dieses Problem ohne wirkliche Folgen nur einmal in den letzten 10-15 Jahren untergekommen ... und wenn ich mich recht erinnere, war das eine SUN-Ultra-10 mit zwei internen IDE-HDs.


    Ich behaupte jetzt mal, dass ist ein Software-Problem ... dahin deuten dieser Spare-Flag und das Sigi's RAID5-Verbund wieder läuft ... wie lange jetzt auch immer. TimeOuts durch zu langsames Hochfahren von den HDs muss softwareseitig abgefangen werden ... so die Devices beim Booten zumindest erkannt werden.


    Gruss Miru

    VDR-Server 2.0.6 yavdr-testing-repo - Kubuntu 12.04 LTS/64 - I-Dual-Core 2,2 GHz, 2 GB RAM, SATA 500GB, via NFS 2,9 TB HW-RAID5 an Sol10Sparc mit ZFS, 1x FF-TT 2.3 modded, 1x FF-TT 1.5, 2x TT-1600, via DLAN AVpro/Coax 4x 2x MVP Ver.D3A - VOMP 0.4.0 mit Media, MVP-Dongle 0.4.0
    Arbeitsplatz: 12.04 LTS/64 2.0.6
    yavdr-testing-repo - I-Dual-Core 2,4 GHz, 4 GB RAM, 2x 1TB, 2x TT-1600
    WAF-VDR-Client: openelec-3.2.4/XBMC-12.2-Frodo/ alternativ yavdr 0.5.0a: PulseEight-USB-CEC-Adapter, ZBOX-HD-ID41: 4GB RAM, 64GB SSD, 16GB Patriot-USB-Stick am Samsung UE37D5700 (gehackt) für TimeShift direkt am TV ohne VDR-Zugriff

    Einmal editiert, zuletzt von Miru ()

  • Zitat

    Über welche HW-RAIDs reden wir ... unterhalb 5-stellig € oder drüber ?


    Hm - in der Liga "so-scheiß-teuer" habe ich mich privat noch nicht bewegt :D
    ... und denke, dass die wenigsten, die hier HW-Raid betreiben, solche vergoldeten Teile im Einsatz haben.


    Ich habe zwei 3ware-Kontroller (einen PCI und einen PCIe) und bei beiden traten die Effekte genauso auf, wie mit Software-Raid.
    Übrigens habe ich HW-Raid erst nach ausgiebigen Performance- und Kompatibilitätstests aufgegeben.
    Aber ok, Firmware ist ja auch Software, deshalb relativiere ich mein Fragezeichen in der Richtung, dass ich sowohl HW- als auch SW-Fehler für möglich halte.


    Zitat

    TimeOuts durch zu langsames Hochfahren von den HDs muss softwareseitig abgefangen werden ... so die Devices beim Booten zumindest erkannt werden.


    War bei mir sowohl bei den Maxtors, als auch aktuell bei einer (funktionstüchtigen) WD-Platte so, dass die betreffenden Platten beim Booten vom BIOS nicht erkannt wurden.
    Bei meinem kleinen Alten muss ich regelmäßig ein Reboot nach dem Einschalten machen, damit die WD-Platte erkannt wird.
    Erst bei aktuelleren BIOSen entdeckte ich eine Einstellmöglichkeit zum timeout bei HD-Erkennung.


    Letztlich muss Sigi entscheiden, ob er sich für ein HW-Problem rüsten will oder nicht.


    Gruß Gero

    Ich bin verantwortlich für das, was ich schreibe, nicht für das, was Du verstehst!

    Einmal editiert, zuletzt von geronimo ()

  • Ich hab' mein HW-RAID5 an meiner SUN-AXmp auch nur aus einer Insolvenz eines Kunden ;)


    Aber ich betreue Kunden mit riesigen Daten-Mengen, welche hochverfügbar sein müssen. Da werden RAIDs, seit Jahren mit 6er-Sets, sogar noch zusätzlich zu RAID1-Verbund geschaltet.


    Die BIOS-Option "Delay on HD-Startup" (nennen wir es mal so) kenne ich auch ... mein Arbeitsplatzrechner hat auch diesen Menu-Punkt ... sollte das natürlich abfangen.


    Aber von der Theorie her, sollte "md" doch in der Lage sein, einen rescan für die HDs zu machen, so nicht alle HDs beim Booten verhanden sind - ggf. dann die devices wieder neu anlegen, bevor er gleich ein RAID-Set degraded bzw. in die Tonne schmeißt.


    Nur so eine Idee bzw. Frage


    Gruss Miru

    VDR-Server 2.0.6 yavdr-testing-repo - Kubuntu 12.04 LTS/64 - I-Dual-Core 2,2 GHz, 2 GB RAM, SATA 500GB, via NFS 2,9 TB HW-RAID5 an Sol10Sparc mit ZFS, 1x FF-TT 2.3 modded, 1x FF-TT 1.5, 2x TT-1600, via DLAN AVpro/Coax 4x 2x MVP Ver.D3A - VOMP 0.4.0 mit Media, MVP-Dongle 0.4.0
    Arbeitsplatz: 12.04 LTS/64 2.0.6
    yavdr-testing-repo - I-Dual-Core 2,4 GHz, 4 GB RAM, 2x 1TB, 2x TT-1600
    WAF-VDR-Client: openelec-3.2.4/XBMC-12.2-Frodo/ alternativ yavdr 0.5.0a: PulseEight-USB-CEC-Adapter, ZBOX-HD-ID41: 4GB RAM, 64GB SSD, 16GB Patriot-USB-Stick am Samsung UE37D5700 (gehackt) für TimeShift direkt am TV ohne VDR-Zugriff

    Einmal editiert, zuletzt von Miru ()

  • was ich am ganzen Ablauf nicht verstehe ist der Inhalt dieses Posts


    wie kann der angeblich *mitten im Resync* von


    md0 : active raid5 sdc1[3] sdd1[1] sde1[2]
    algorithm 2 [3/2] [_UU]


    auf -->


    md0 : active raid5 sdc1[3](S) sdd1[1] sde1[4](F)
    algorithm 2 [3/1] [_U_]


    gehen. Das muss mir mal einer erklaeren:)


    Da muss doch irgendein Hardwareproblem vorliegen. Deswegen haette mich der Inhalt der /var/log/messages von diesem Zeitpunkt interessiert.


    - sparkie

  • Das paßt zum ursprünglichen Fehler.


    sdc1 wurde (wohl durch Platten-oder sonstigen HW-Fehler) aus dem Array gekickt. sde1 stieg danach auch aus -> Array tot.


    Für das Rebuild setzt er sdc1 auf Spare, und während des Prozesses steigt dann auch wieder sde1 aus -> Array wieder tot.


    Ich würde die Hardware nochmal checken und ggf. die Platten tauschen.


    Ciao
    Piet

  • nur sicherheitshalber...


    schonmal an die dusseligen sata-kabel gedacht? die gehen gerne schonmal nach dem 1. anstecken kaputt...hatte beim aufbau meines vdr auch den fall das der pc nur am rumspinnen war...kabel raus, alles gut...

    Client 1 Hardware : MSI Z87-G43, I5-4570, 4 GB Ram (oversized aber war über :) ),Zotac NVidia GT630 (25 Watt),Thermaltake DH202 mit iMon-LCD ( 0038 ) und vdr-plugin-imon
    Software : yaVDR 0.6,sofhhddevice @ 1920x1080@50Hz
    Server Hardware : MSI Z87-G43, I7-4790, 16 GB RAM, 5x3 TB WD Red, Digibit-R1 (2 Devices)
    Software : Ubuntu 16.04 LTS mit yavdr-Paketen,virtualbox,diverse VM's


    Yoda: Dunkel die andere Seite ist...sehr dunkel!
    Obi-Wan: Mecker nicht, sondern iss endlich dein Toast ...

  • ja diese Kabel sind echt ein Problem.... die scheinen auch gerne mal zu "wandern", wenns vibriert - und welche Platte vibriert nicht. Ist besonders nett, weil die Kabel ja nen Clip zum Festhalten haben, aber bei der Platte oder dem Controller nix ist, woran der Clip sich festhalten kann ....

  • Zitat

    Aber ich betreue Kunden mit riesigen Daten-Mengen, welche hochverfügbar sein müssen. Da werden RAIDs, seit Jahren mit 6er-Sets, sogar noch zusätzlich zu RAID1-Verbund geschaltet.


    Solche kenne ich auch.
    Schoen auch, wenn dann alle mds auf ein und dem selben FC-Device liegen (am besten ueber zwei Kanaele angefahren). Und dort am besten auch nochmal mit Raid abgesichert werden.
    Hilft aber alles nichts gegen das Layer8-Problem.


    "Restore. Restore. Alle wollen einen Restore haben, keiner will ein Backup machen."


    uwe

    server: yavdr trusty testing, 2 * L5420, 32GB, 64TB RAID6 an OctopusNet (DVBS2- 8 ) + minisatip@dsi400 (DVBS2- 4 )
    frontends: kodi und xine

  • Zitat

    ich kann auch wieder lesen und schreiben.


    Das ist natürlich schlecht. Vielleicht war da auch schon zu viel kaputt.


    Ich hatte damals die Situation das ich bei 2 fehlenden Platten keine wieder hinzufügen konnte. Ich hatte das Raid deshalb aufgelöst und dann mit --create --assume-clean wieder zusammengesetzt. Danach kam dann bei mir der Logical Volume Manager in dem es natürlich auch noch wieder read-only Flags für Volumes gibt. Danach beschehrte mir fsck auf meine ext3 Dateisystem ein gut gefülltes lost+found Verzeichnis, aber keinen wirklich spürbaren Datenverlust.
    Wenn zwischen dem Auseinanderfallen und Wiederzusammensetzen zu viel passiert oder noch andere Störungen eintreten sinkt leider die Warscheinlichkeit das die Methode funktioniert.
    Wer kann, sollte Images der Platten ziehen, was jedoch wegen des Zeitaufwandes nicht wirklich praktisch ist.
    Das ganze hat mich Tage (oder auch Wochen) gekostet.


    Die Hardware bei mir ist ein Intel Atom 330 Board mit 3 Seagate 1,5GB (ST31500341AS) Platten. Ein Rebuild nach dem Verlust einer Platte dauert ungefähr 9 Stunden, wenn sonst nicht so viel los ist! Raid 6 wäre also eigentlich angeraten macht bei dann bei nur 4 Platten keinen Sinn.


    viel Glück
    Stefan


  • Yupp - da gingen bei mir auch alle Alarmglocken an. Passt für mich auch nicht in die Kategorie "Fehler an Weichware"


    Zitat

    Die BIOS-Option "Delay on HD-Startup" (nennen wir es mal so) kenne ich auch


    Yo, das Problem ist, dass mein kleiner Alter die Option nicht kennt und auch nix vergleichbares. Der bleibt meist (!) nur mit BIOS-Fehler stehen.


    sigi: - konntest Du schon einige Aufnahmen überprüfen? Sind die Daten noch/wieder ok?
    Hast Du mal smartctl auf die Platten losgelassen, wie dort die Fehlerrate aussieht?


    Gruß Gero

    Ich bin verantwortlich für das, was ich schreibe, nicht für das, was Du verstehst!

  • Zitat

    Original von geronimo


    sigi: - konntest Du schon einige Aufnahmen überprüfen? Sind die Daten noch/wieder ok?
    Hast Du mal smartctl auf die Platten losgelassen, wie dort die Fehlerrate aussieht?


    Gruß Gero


    der Zugriff auf einzene Aufnahmen (mit VLC vom Windows aus) funktioniert.


    lost+found hat eine Datei namns 805306683 mit 0 Byte


    smartctl: mhmm....


  • Zitat

    smartctl: mhmm....


    smartctl liest die Smart-Werte einer Festplatte aus, deshalb muss man dem Proggy eine Festplatte und keine Partition angeben.
    Also z.B. so:

    Code
    smartctl -x /dev/sdc > sdc.smart
    smartctl -x /dev/sdd > sdd.smart
    smartctl -x /dev/sde > sde.smart

    Die entstandenen *.smart kannst Du dann in Ruhe in Deinem Lieblingseditor anschauen.


    Bei der Ausgabe gibt es dann den Statusbereich, der bei einer gesunden Platte (WD Raptor) etwa so aussieht:

    Als Vergleich dazu eine Barracuda ES, die anfängt rum zu zicken:

    Wenn Du die Zeilen vergleichst, die was mit "error", bzw. "recovered" zu tun haben, dann siehst Du den Unterschied.


    Gruß Gero

    Ich bin verantwortlich für das, was ich schreibe, nicht für das, was Du verstehst!

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!