Linux Boot Problem...

  • so, da ich nun nicht mehr weiter weiß und am verzweifeln bin, starte ich einen Hilferuf in der Hoffnung auf eine Lösung bzw. Lösungshinweise...


    Ich hatte hier (Mailserver und Firewall ) schon mal letztes Jahr um Tipps/Vorschläge zu Mailserver-Software auf Linux gebeten, da ich mich ein wenig weiterbilden bzw. ein neues Projekt angehen wollte. Nach ausführlicher Recherche habe ich mich für Axigen, Scalix & Zarafa entschieden und diese anschließend in einem VM aufgesetzt und gestestet. Grundsätzlich lief alles ganz zufriedenstellend mit mehr oder weniger Konfigurationsaufwand.
    Leider habe ich in einer Bierlaune einem selbstständigen Freund von den Möglichkeiten und der Funktionsvielfalt der Software vorgeschwärmt und dieser ist auch gleich angesprungen und wollte, dass ich ihm das implementiere (ca. 11 User)...naja, ich schulde ihm noch etwas, also haben wir folgende Hard- bzw. Software besorgt:


    Hardware:
    - Asus M4A78LT-M LE
    - AMD Athlon II X2 240e
    - 4GB Corsair DDR3 XMS3-Kit 1333
    - Intel Gigabit CT
    - 3ware 9650SE-2LP
    - 2x Samsung HE103UJ (Raid-1)
    - 1x Samsung HE103SI (Backup per cronjob)
    - 550 Watt Netzteil
    - APC RS800


    Software:
    - Centos 5.5
    - Scalix Small Business Edition Starter Kit für 20 Premium User + 5x ActiveSync


    Die Installation von Centos&Scalix funktionierte soweit ohne Probleme und so konnten wir am Montag anfangen, die bestehenden Outlook-Daten zu migrieren; über Nacht sollten die letzten Daten des Chefs importiert werden (2GB an Outlook). Am nächsten Morgen bekam ich einen Anruf, dass der Outlook-Connector nicht mit dem Server verbinden konnte. Also bin ich raus gefahren und habe das Ding wieder mitgenommen... der Server hat sich aufgehangen und fährt nicht mehr hoch. Selbst per "linux rescue" spuckt er bei zweimaligen Versuchen unterschiedliche Fehlermeldungen aus:


    erstens:

    Code
    1. RAMDISK: Compressed Image found at block 0
    2. No filesystem could mouont root, tried: ext2 iso 9660
    3. kernel panic - not syncing: VFS: Unable to mount root fs on unknown-block (8,3)


    zweitens:

    Code
    1. RAMDISK: Compressed Image found at block 0
    2. crc error
    3. VFS: cannot open root device "<NULL>" or unknown-block (8,3)
    4. Please append a correct "root=" boot option
    5. kernel panic - not syncing: VFS: Unable to mount root fs on unknown-block (8,3)


    Mir ist durchaus bewusst, dass es sehr schwer ist mir Tips bzgl. des Fehlers zu geben, wenn ich nicht mal ins System komme, um log-Dateien zu liefern. Mittlerweile vermute ich einen Hardwaredefekt, da ich das System zunächst auf SW-Raid ausgelegt hatte und am Anfang beim ersten booten einen ähnlichern Fehler hatte. Allerdings hatte ich im vorhinein die Festplatten und den Ram auf Fehler überprüft und nichts gefunden.


    Wie gesagt, ich bin für jeden Tip dankbar.


    Gruß,


    UKFencer

  • Sieht so aus als wär die Partitionstabelle zerschossen oder ähnliches.


    Fahr die Kiste mal mit nem andren Livelinux ala Knoppix, Ubuntu etc hoch und schau dir die Platte an.
    Er findet die /boot Partition / Sektor nicht.

  • Quote

    Original von cyril
    Sieht so aus als wär die Partitionstabelle zerschossen oder ähnliches


    ok, klingt logisch. Meine Frage ist dann:


    1. Wie kann denn so etwas passieren?
    2. Und vor allem, wie kann so etwas im laufenden Betrieb passieren?


    Quote

    Original von cyril
    Fahr die Kiste mal mit nem andren Livelinux ala Knoppix, Ubuntu etc hoch und schau dir die Platte an.
    Er findet die /boot Partition / Sektor nicht.


    Tja, komme leider mit CentOS CD nicht in den "linux rescue" Mode, Stoppt immer mit obigen Fehlern...vielleicht hat C-3PO recht...?


    Quote

    Original von C-3PO
    Ich würde jetzt einfach mal behaupten, dass Deine Festplatte in den Festplattenhimmel gegangen ist...

  • Sowas kann viele Ursachen haben.
    Läuft die Festplatte beim Systemstart überhaupt an?


    Lass mal den Rescuemode und boote von einem Livelinux, oder hab ich da was missverstanden?. Damit kannst du dann auch Tests mit der Platte machen und schauen, ob das Ding lebt und was los ist.

  • Die Festplatten werden vom 3Ware Controller erkannt und laufen beim Start auch an.


    Also, jetzt bootet das System noch nicht mal von der CentOS 5.5 LiveCD RC2...Häh, jetzt verstehe ich gar nichts mehr.

  • Hast du nicht die Möglichkeit von einem andren Linux zu booten?
    SysrescueCD, Knoppix, Ubuntu nutze ich meist wenn das System ned bootet um mir die Platten anzusehen.


    Die booten ind er Regel auch wenn die Platten probleme machen.

  • Habe mit Knoppix gebootet...ein fdisk -l liefert folgendes:


    eigentlich habe ich insgesamt 3x 1.000GB Platten, wovon 2 Stück im Raid-1 am 3Ware hängen und die dritte als Backup dient. Nur davon sehe ich hier nichts...?

  • Das ist ein hardware-Raid. Für das System sieht es klarerweise so aus, als ob dein /dev/sda eine 1000GB Platte ist.


    Das der Controller über das Device aber 2 Platten im Raid1 verwaltet ist dem System unbekannt und komplett wurscht.


    Dann unmounte die beiden Platten mal und lass nen fdisk (natürlich fsck meinte ich) drüber laufen.

  • Wenn ich das richtig sehe kann die /dev/sda nicht die systemplatte sein...und trotzdem ist sie als "Boot" markiert.../dev/sdb hat doch Boot-, swap & Root-Partition...da ist der Fehler,oder?

  • Kann ich mir gut vorstellen.
    Entfern einfach mal zum Test bei einem der beiden das Bootflag.



    €: Müde! Entfern natürlich bei /dev/sda das Bootflag!

  • sorry, aber wie ändert man die boot flag...habe nichts gefunden, bzw. bin mir nicht sicher wonach ich suchen soll?


    Irgendwie mit fdisk und unboot soll es ja gehen nur helfen mir die manpages nicht weiter...

  • so, erstes Problem gelöst: boot flag ist deaktiviert und jetzt kann ich schon mal ins "linux rescue" und von centos booten und

    Code
    1. chroot /mnt/sysimage


    fdisk -l


    /boot/grub/grub.conf

    Könntet ihr mal eine Blick drauf werfen und mögliche Tips geben warum das System nicht startet und mit einem blinkenden cursors oben links verharrt?
    Da ich jetzt wieder Zugriff habe könnte ich auch ander logs liefern.


    Gruß,

  • Vielleicht ist die hd(0,0) ned die Platte wo das rootsystem liegt.


    Der Grub setzt auf die Daten aus dem BIOS auf, kontrollier mal dein BIOS.
    Oder machs plump und stell die hd-Einträge in der /boot/grub/menu.lst einfach so lange um bis das Ding bootet.


    Zb: (hd1,0) (hd2,0) etc.


    Der 1. Wert ist die Plattennummer, der 2. die Partitionsnummer.


    €: der schöne Weg ist natürlich dieser: GNU-Grub

  • Korrigiere mich wenn ich mich irre, aber laut der fdisk -l ist die /dev/sda mein Hardware-Raid und die Partitionen sind:


    /dev/sda1 -> /boot
    /dev/sda2 -> /swap
    /dev/sda3 -> /


    Daraus folgt, das hd(0,0) gleich die /dev/sda1 und somit auch die /boot ist. Es sollte doch alles funktionieren, oder habe ich einen Gedankenfehler?


    P.S.: grub-installer /dev/sda habe ich auch schon ausgeführt...hat nichts gebracht.

  • Ok ich korrigiere dich.


    Die Festplattenanordnung wie es das BIOS macht und somit der Grub anspricht hat nichts mit den Devicenamen der Festplatten im Betriebssystem zu tun.

  • Tja, was soll ich sagen DU hattest recht. Aus irgendeinem Grund hatte sich die Boot Reihenfolge verstellt und er wollte anstatt vom 3ware-Kontroller von der dritten SATA Festplatte booten.

  • Komisch, komisch...jetzt wollte ich schnell die Postfächer per script als mbox sichern und schon hat er sich wieder aufgehangen und ich musste den Resetknopf drücken.


    Da das Script von den Hardware-Raid-Platten (7.200u/min) direkt auf die dritte Platte(5.400u/min) sichert hatte ich vermutet, dass der Crash aufgrund der unterschiedlichen Geschwindigkeiten resultiert. Könnte das sein...?


    Wie kriege ich den raus warum das System am Montag Abend abgeschmiert ist..? Welche logs sind da ausschlaggebend...?