Hilfe, Platten crash (ide-scsi, lvm, reiserfs)

  • Hi


    ich glaub ich stehe hier kurz vor einem GAU im video Verzeichnis. Es ist natürlich kein RAID und Backups von ca. 500GB gibt es auch nicht. Es fing damit an, daß der Scan nach Aufnahmen merkwürdigerweise sehr sehr lang dauerte. In syslog kam ich dann auf folgende Meldung:

    Code
    Jun 22 05:17:56 farpoint kernel: scsi0: ERROR on channel 0, id 15, lun 0, CDB: Read (10) 00 03 94 d2 e0 00 00 08 00
    Jun 22 05:17:56 farpoint kernel: Current sd08:40: sense key Medium Error
    Jun 22 05:17:56 farpoint kernel: Additional sense indicates Unrecovered read error
    Jun 22 05:17:56 farpoint kernel:  I/O error: dev 08:40, sector 60084960
    Jun 22 05:17:56 farpoint kernel: lvm(58,1):vs-13070: reiserfs_read_inode2: i/o failure occurred trying to find stat data of [265 266 0x0 SD]
    Jun 22 05:17:56 farpoint kernel: sym53c895-0-<15,*>: FAST-40 WIDE SCSI 80.0 MB/s (25.0 ns, offset 14)


    Soweit sieht das ja noch nicht so schlimm aus. Aber jetzt noch mal zu meiner Umgebung: 2 IDE Platten bilden über IDE-SCSI Adapter und über LVM mit reiserfs das Video-Verzeichnis (/data/video).

    Code
    /dev/vg01/lv02       535937048 499186252  36750796  94% /data


    Die SCSI devices sind /dev/sde und /dev/sdb. /dev/sdb ist logisch am Ende, da sie erst später hinzugefügt wurde. Was nun das ganze aber wohl zur Katastrophe machen wird ist die Tatsache, daß die Volume-Gruppe vg01 nicht mehr gefunden wird sondern nur noch vg00 wo sich die Homeverzeichnisse befinden. Ein

    Code
    vgcfgrestore -l -l -n vg01 -v -f /etc/lvmconf/vg01.conf  /dev/sde


    gibt keine Fehlermeldung aus sondern nur:


    Wenn ich mir die ersten Sektoren mit dd anschaue, sieht das auch nicht sehr ermutigend aus:


    Die Frage die sich mir stellt ist: Reboot oder noch weiterlaufen lassen und versuchen noch was auf externe Platten (noch kaufen) zu retten. Die möglichen Effekte sind:
    Reboot - vg01 ist komplett hinüber
    laufen lassen - der Fehler ist nach einiger Zeit (bis ich mir die ext. Platten besorgt habe) so schlimm geworden wie nach einem reboot :-(( .
    Ich glaub die zweite möglich bietet die größer Wahrscheinlichkeit noch etwas zu retten. Na mal sehn wie sich das entwickelt.


    Stefan Lucke


    Nachtrag: ein pvscan liefert:

    Code
    farpoint:/etc/lvmconf # pvscan
    pvscan -- reading all physical volumes (this may take a while...)
    pvscan -- ACTIVE   PV "/dev/sda3" of VG "vg00" [15.02 GB / 2.32 GB free]
    pvscan -- ACTIVE   PV "/dev/sdb"   is associated to an unknown VG (run vgscan)
    pvscan -- inactive PV "/dev/sdc"  is in no VG  [111.82 GB]
    pvscan -- inactive PV "/dev/sdd"  is in no VG  [114.50 GB]
    pvscan -- total: 4 [520.82 GB] / in use: 2 [294.51 GB] / in no VG: 2 [226.31 GB]
  • Zwar keine hilfe für dich, aber LVM ist für mich ohne RAID1,5,6 ein absolutes nogo.


    Wird zwar einem LVM hier bei jedem problem mit mehreren /videoX verzeichnissen unter die nase gerieben, dein problem ist aber mal ein beispiel warum ich als simple konfiguration immer noch mehrere /videoX verzeichnisse LVM vorziehe.
    ;)


    Bei problemem einer platte im LVM ist meist alles futsch. Zumindestens endet das in ziemlichen restaurationsproblemen.
    Mit mehreren /videoX verzeichnissen beschränken sich die probleme auf eine platte. Bei geschicktem umkopieren (jede aufnahme immer KOMPLETT auf einer platte) ist so nur ein teil der aufnahmen betroffen.
    Da video nicht wirklich lebenswichtig ist, ist dieser teilverlust (meist) zu verschmerzen.


    gruss Peter


    P.S.
    Sind das nun IDE oder SCSI platten ?
    Wenn IDE wozu dann der krampf mit IDE-SCSI ?
    Das musste ja irgendwann schiefgehen.
    Oder ist das hardware ?


    Ist auf dem LVM noch was anderes drauf ?
    Wenn nicht einfach finger weg vom aufnahmeknopf und eventuell read only setzten damit VDR die finger von den daten nimmt.
    Das sollte mögliche weitere logische zerstörung gering halten.


    Wenn die platte aber einen weg hat wirds darurch nur schlimmer.
    Eventuell mal S.M.A.R.T befragen wie der physische plattenstatus ist ?

    Mein anderer VDR ist (auch) ein EPIA
    1)VIA M10000-Nehemiah, 160+120G Samsung; NEC 1300A; YY A106; LCD20x4 ...
    2) ctvdr+e-tobi ; C3M266+1,2GHz-Nehmiah; 160G Samsung + 4x500G Seagate SATA; NEC3500; TT-Case; DVB-S 1.3+4MB + Nova ; gLCD 240x128 ...
    . . .TB rulez. . .

    2 Mal editiert, zuletzt von PeterD ()

  • So ganz blicke ich bei Deiner Konfig jetzt auch nicht durch.


    Du hast vier Platten als PV genutzt, richtig? Du hast diese vier Platten auf zwei VGs verteilt, richtig? In welcher Reihenfolge?


    Eine der Platten ist jetzt abgeraucht, richtig? Bist Du Dir sicher? Du hast noch nicht neu gebootet. Es kann durchaus vorkommen, daß Platten wegen Hitzeproblemen temporär den Geist aufgeben und später wieder funktionieren. Das BS behält aber dann den Fehlerstatus. Ein einfacher Reboot behebt das Problem.


    Mehr Daten verlieren kannst Du durch den Reboot auch nicht. Die Platte ist jetzt eh' weg. ansonsten der alte Kühlschranktip, um die Platte temporär wieder zum Leben zu erwecken und die Daten runterzuziehen.


    Man kann LVM auch eine andere Partition unterjubeln, so daß man die LVs wieder aktivieren kann und die Daten vom ersten Teil wiederherstellt. Bin ich jetzt aber im Moment überfragt.


    [EDIT] Ach ja, PeterD nimmt mir die Worte aus dem Mund. Ich rede (schreibe) hier immer in Zusammenhang mit LVM, daß eine Verwendung ohne RAID absolut hochriskant ist. Aber naja, ist ja jeder selbst verantwortlich.[/EDIT]
    Grüße


    Christian

    Glotze: yaVDR (ASRock Q1900M, 4GB RAM, DD Cine S2 V6.5, ZOTAC GT630 (Rev. 2)
    Server: HP ProLiant MicroServer G8, VMware ESXi 5.5 :P

    Einmal editiert, zuletzt von knebb ()

  • Zitat

    Originally posted by knebb
    So ganz blicke ich bei Deiner Konfig jetzt auch nicht durch.


    kann vorkommen

    Zitat

    Du hast vier Platten als PV genutzt, richtig?


    Es sind leider 5, obwohl pvscan nur 4 liefert, /dev/sde fehlt.

    Zitat

    Du hast diese vier Platten auf zwei VGs verteilt, richtig?
    In welcher Reihenfolge?


    Von den 5 Platten sind 2 x 120GB nicht in einer VG (/dev/sdc & /dev/sdd). /dev/sda ist eine normale SCSI Platte (16GB), partitioniert und /dev/sda3 ist in VG00. In VG01 sind 2 x 300GB /dev/sde (erste Platte dieser VG) und /dev/sdb (zweite Platte mit 1525 free PEs).

    Zitat

    Eine der Platten ist jetzt abgeraucht, richtig? Bist Du Dir sicher? Du hast noch nicht neu gebootet.


    (a) Noch nicht richtig, (b) nein, (c) ja, ich habe noch nicht neu gebootet.


    Habe noch den Hinweis gefunden, mal sehen was sich daraus machen läßt: http://linux.msede.com/lvm_mlist/archive/2002/01/0336.html .


    Ich sehe das ganze im Moment eher sportlich. Wenn die Videosachen weg sein sollten, dann sind sie halt weg. Mann war halt mit dabei und hat wieder was gelernt.


    Wie gesagt/geschrieben: es hat mit einem tatsächlichen Lesefehler angefangen. Und aus irgendeinem Grund sind nun die ersten 8 Sektoren (4K) von /dev/sde mit Nullen überschrieben, sodaß pvscan sie nicht mehr als PV erkennt.


    dd scheint beim Lesen auch mit bs=512 count=1 immer 4k (8 Sektoren) zulesen. Zumindest war mit skip=60084960 bis 60084967 nichts zu holen. Wird aber sg_dd verwendet mit if=/dev/sg5 (das ist /dev/sde) produzieren nur 60084960 bis 60084963 Lesefehler ;) .


    Richtig spannend wirds ja erst, wenn ich auf diesem System _ohne_ device-mapper den PE mit dem Lesefehler verbiegen möchte.

  • Nachdem ich also vor dem Abgrund stand, bin ich nun einen Schritt weiter. Was ich so gefunden und gelesen machte mir eigentlich Hoffung und ich habe es mir erspart sogennante wichtige Videos auf ein externes Laufwerk zu retten. Wie zu erwarten war kam die VG (vg01) nach einem Reboot nicht online. Auch Tricks wie erneutes Anlegen, pvcreate mit manueller Manipulation der UUID auf die orginal UUID, konnte vgcfgrestore mit den vorhergenannten Parametern nicht dazu bringen irgendetwas zu restoren :-(( . Ein paar Stunden Schlaf später und einem Blick in die Sourcen von vgcfgrestore gab es einen AHA-Effekt. Die Optionen -l, -ll, -l -l wirken so wie die Option -t (_Test_). Nun also ein

    Code
    vgcfgrestore -n vg01 -f /etc/lvmconf/vg01.conf  /dev/sde

    und das Ganze sah schon viel besser aus :-)) . Anschließend noch ein

    Code
    vgscan
    vgchange -ay vg01
    mount /dev/vg01/lv02 /data

    und die Video sind wieder zugreifbar :-))) . Mal sehen wie ich die Sache mit dem Lesefehler noch behoben kriege. Bis dann.


    Stefan Lucke

  • Zitat

    Original von stl
    Nachdem ich also vor dem Abgrund stand, bin ich nun einen Schritt weiter.


    Mal genau logisch überlegen wo du dann JETZT bist :D


    AAAHHHHHHHHHHHHHHHHHhhhhhhhhhhhhh . . . . KLONK !

    Mein anderer VDR ist (auch) ein EPIA
    1)VIA M10000-Nehemiah, 160+120G Samsung; NEC 1300A; YY A106; LCD20x4 ...
    2) ctvdr+e-tobi ; C3M266+1,2GHz-Nehmiah; 160G Samsung + 4x500G Seagate SATA; NEC3500; TT-Case; DVB-S 1.3+4MB + Nova ; gLCD 240x128 ...
    . . .TB rulez. . .

    Einmal editiert, zuletzt von PeterD ()

  • PeterD


    Ich find's klasse, wenn Leute einen Witz reißen (stl) und Leute den Spruch für voll nehmen. ;) ;D


    Grüße,
    McMorning

    01000011 01101111 01101110 01100111 01110010 01100001 01110100 01110101 01101100 01100001 01110100 01101001 01101111 01101110 01110011 00100001 00100000 01011001 01101111 01110101 00100000 01100011 01100001 01101110 00100000 01110010 01100101 01100001 01100100 00100000 01100010 01101001 01101110 01100001 01110010 01111001 00101110 00100000 00111011 00101101 00101001

  • PeterD:
    Vielleicht habe ich mit der Anschlußweise mißverständlich ausgedrückt. Es sind IDE Platten, die über einen Hardware-Adapter an den SCSI-Bus angeschlossen sind.
    http://www.acard-germany.de/produkte_aec7726h.html
    Der zugehöhrige Ausschnitt aus /proc/scsi/scsi:


    Der nächtste Schritt (nach dem Abgrund ist vor dem Abgrund): Ich habe also so ungefähr den betroffenen LV-Extend gefunden und dieses Kommando ausgeführt:

    Code
    pvmove -i -vv /dev/sde:915 /dev/sdb


    Gottseidank gibt pvmove mit der Doppel-v-Option auch direkt die Sektornummern aus. Im vorhergehenden Testmodus bei der Verwendung der Option -t gab es natürlich keine Fehlermeldung, aber hier:

    Was sagt mir das ? Insgesamt konnten also sage und schreibe 256 Sektoren nicht gelesen werden. Das merkwürdige daran ist nur, daß in /var/log/messages nur 2 ! Fehlermeldungen protokolliert wurden. Zu dem Sektor 60084744 und dem alten Bekannten 60084960. Also kam zunächst mal eine Leseübung mit sg_dd, gesteuert über ein kleines Script. Diese Meldungen sahen doch schon viel besser aus:


    Also nur noch drei defekte Sektoren. Wenn ich hier schon soviele Protokollausschnitte reinhänge, kommt es auf das kleine Script nun auch nicht an:



    Nun ja. Das Videoverzeichnis ist immer noch zugreifbar, find meldet bei zwei Verzeichnissen Fehler wie vor der Verschiebeaktion. Ich denke das wars und muß mir nun schnellstens Ersatz für die eine 300GB Platte besorgen. Wenn jetzt noch jemand einen bösen Fehler in dem Script entdeckt, dann ...

  • Hi stl,


    bei Bad Sectors (und danach siehts aus) solltest Du schnellstmöglich mit dd_rescue retten, was zu retten ist. Danach auf den erstellten Images die Daten retten, nicht auf der gerade sterbenden Originalplatte! Die BS werden in machen Fällen ganz schnell mehr...


    Viele Grüße,
    Holger

    VDR 1-3: Zotac ZBox HD-ID42, yavdr-0.5
    VDR 4: AMD5900/Asus M3N-78, yavdr-0.5
    DVB-Empfang: Netceiver
    Storage: via NFS von separatem Fileserver

    [size=10]

  • Was ist da der Unterschied dd_rescue vs. sg_dd ? Sprich wie geht dd_rescue vor?
    Die betreffende Platte ist übrigens auch eine MAXTOR wie bei Dir (hier eine 5A300J0). Hab mir mittlerweile eine WD 32000SB besorgt.

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!