Linux Boot Problem...

  • Alle Logs deren daemons liefen.
    Und der syslog.


    Damit solltest du in der Regel mal sehen, was das System zuletzt gemacht hat, als es abgeschmiert ist.


    Was bedeutet aufgehangen?

  • Quote

    Original von UKFencer
    Das script lief durch bis hier hin...hatte zufällig meine Kamera da.


    [IMG:http://www.skt-invest.de/fotos/fehler.jpg]

    Moin moin,
    das sieht nach 'nem bösen Crash im Filesystemtreiber aus. Ich hatte sowas kürzlich bei meinem Server wegen kaputten/minderwertigen SATA-Kabeln. Die Kiste hat einen Adaptec 1430SA und zwei Port-Multiplier, an denen zwei SATA-Backplanes mit insgesamt 10 1TB-Platten in einem RAID5 hängen (eben für Video ;-). Das Ganze ging fast zwei Jahre lang gut, dann hat's mir beim monatlichen Check das RAID "gebröselt" (zwei Platten "weg").


    Ich hab' mich bewußt gegen die Hardware-RAID Lösung entschieden, weil die Softwarelösung besser portabel ist. Und ein 3ware Controller nur als SATA-Controller ist bei 10 Ports schon eine reichlich teure Geschichte. Die Software-Lösung wuppt immerhin auch so um 350..400MB/s, das reicht erstmal aus, so lange ich "nur" ein 1GBit-Netzwerk habe.


    Bei der recht nervenaufreibenden Fehlersuche hat sich dann gezeigt, daß eins der SATA-Kabel zu Fehlern geführt hatte, die in Folge immer wieder Port-Resets angestoßen hat, bis der Kernel dann irgendwann auch nur noch Register-Dumps ausgespuckt hatte.


    Zwei weitere flutschneue Kabel aus dem Lieferumfang eines schweineteuren Asus-Boards haben sich gleich als reif für die Tonne entpuppt, erst mit dem dritten Kabel ging's dann endlich. Seitdem ist in dieser Beziehung Ruhe. Das RAID ließ sich dann wieder patchen und läuft jetzt wieder. Von den wichtigsten Daten (Mails, Fotos, Dokumente etc.) gibt es natürlich Backups, aber für die 8TB Video-Sammelei ist das halt nicht praktikabel.


    Nachdem auch die SATA-Library immer noch diverse schwere Fehler in Bezug auf Port-Multiplier und Backplanes hat die die Platten mittels "Powerup In Standby" starten, hat mein Enthusiasmus für die Selbstbaulösung doch einen ziemlichen Dämpfer erhalten.


    Übrigens: Wenn ich mich richtig erinnere hatte ein Kunde mal jede Menge Ärger mit seinem neuen Server und 3ware Controller. Platten und Controller haben sich ums Verplatzen nicht vertragen, es gab immer wieder Ausfälle im RAID. Zum Schluß hat - wenn ich mich richtig erinnere - der Dienstleister alle Platten tauschen müssen...


    Viele Grüße,
    Torsten

    "The day Microsoft makes something that doesn't suck is probably
    the day they start making vacuum cleaners" - Ernst Jan Plugge
    __________________
    Torsten Lang

    The post was edited 2 times, last by torsten lang ().

  • Quote

    Original von cyril
    Der Kernel hat sich beim Freigeben vom Speicher zerknickt.
    Mach mal einen Backtrace vom Prozess der da werkelt.


    GDB

    Der Prozess war ein Backup-Script das die Mailbox im mbox-Format auf die dritte Platte schieben sollte...



  • Das mit den Kabel ist echt eine wahrscheinliche Fehlerquelle, zumal ich zunächst auch ein SW-Raid aufgesetzt hatte (mit den gleichen SATA-KAbeln) und ab und an (nicht reproduzierbare) Kernel Panic hatte...

  • Tja,
    bei Deinem Screenshot zeigt das die "Degraded" Meldung auch genau das an, d. h. der Controller hat eine Platte aus dem RAID rausgeworfen. Wenn danach nix mehr ging, müssen wohl noch andere Fehler dazugekommen sein.


    Es sollte jedenfalls zumindest keine Abstürze geben. Leider ist genau das aber eben nicht der Fall. Wie gesagt, da gibt es im Kernel im Bereich der SATA Treiber wohl noch einige sehr unschöne und vor allem schwerwiegende Bugs. Ein paar Probleme in Bezug auf "Power Up In Standby" konnte ich bei einem anderen Controller mit Silicon Image Chip durch Ändern von Retry-Counts und Timeouts beheben, bei dem Marvell Chip auf dem Adaptec gab es aber andere Probleme, da verzählen sich anscheinend einige Schleifen, d. h. wenn beim Hochfahren z. B. eine Platte an Port X am ersten Port-Multiplier beim ersten Durchlauf nicht gefunden wird und ein Retry stattfindet, dann schmeißt der Treiber nach meiner Beobachtung am zweiten Multiplier die Platte an Port X raus...


    Bei meinem Crash hatte ich zusätzlich den Kampf, daß es auch beim Versuch, das RAID zu patchen, gleich wieder einen Segmentation Fault gab. Die Lösung war dann, eine aktuelle Live-Distri zu booten und von da aus das RAID zu reparieren.


    Viele Grüße,
    Torsten

    "The day Microsoft makes something that doesn't suck is probably
    the day they start making vacuum cleaners" - Ernst Jan Plugge
    __________________
    Torsten Lang

    The post was edited 2 times, last by torsten lang ().

  • Ich würde auf jeden Fall auch mal prüfen, ob die Festplatten von 3ware für den Controller freigegeben sind. Wir machen hier recht viel mit den 3ware Kontrollern, u. bei Platten, die nicht auf deren Liste stehen kann es immer wieder zu solchen Timeoutfehlern kommen. Ist in dem Server eine Backplane? Da gilt das gleiche, wenn sie nicht auf der Liste von 3ware steht kommt sie auch als Fehlerquelle in Frage.


    Allerdings ist leider auch die Liste keine 100% Garantie :-( Wir hatten einen Server mit 12 Samsung Platten aus der Liste. Trotzdem timeouts. Irgendwann hat der Support zugegeben, dass dieser Typ (ich glaube bis heute!) auf der Liste steht, aber nicht wirklich geeignet ist...


    Gruss Alex

  • Vielen Dank für eure ausführlichen Erläuterungen, auch wenn diese nicht sehr aufbauend waren,aber dennoch einiges klargestellt haben. Server sind sehr komplexe Systeme die ausführlichen geplant und umgesetzt werden müssen. Das bedeutet, dass es wahrscheinlich einfacher ist ein fertig konfiguriertes System zu kaufen, oder? Könnt ihr in diesem Zuge einen Hersteller empfehlen..? Oder sollte ich das System noch nicht so schnell aufgeben.

  • Eine neue oder ausrangierte Workstation von IBM oder HP ist sicher schon mal ne gute Basis.
    Es gibt ja auch Server die im PC Look und nicht in 19" daher kommen.

    Software: gen2vdr V3 ( Beta8 ) / gen2vdr V2
    Hardware: Intel 5200EE - 5N7A-VM - Scythe Shuriken - BeQuiet(Netzteil) - X10-USB Remote
    SMT 7020S & P3@900 - Testsystem mit FF und X10-USB Remote
    Links für Neueinsteiger


    "Jetzt, wo ich weiß wie es geht, versteh ich auch die Gebrauchsanleitung"