Alle Logs deren daemons liefen.
Und der syslog.
Damit solltest du in der Regel mal sehen, was das System zuletzt gemacht hat, als es abgeschmiert ist.
Was bedeutet aufgehangen?
Alle Logs deren daemons liefen.
Und der syslog.
Damit solltest du in der Regel mal sehen, was das System zuletzt gemacht hat, als es abgeschmiert ist.
Was bedeutet aufgehangen?
Das script lief durch bis hier hin...hatte zufällig meine Kamera da.
[Blocked Image: http://www.skt-invest.de/fotos/fehler.jpg]
QuoteOriginal von UKFencer
Das script lief durch bis hier hin...hatte zufällig meine Kamera da.
[Blocked Image: http://www.skt-invest.de/fotos/fehler.jpg]
Moin moin,
das sieht nach 'nem bösen Crash im Filesystemtreiber aus. Ich hatte sowas kürzlich bei meinem Server wegen kaputten/minderwertigen SATA-Kabeln. Die Kiste hat einen Adaptec 1430SA und zwei Port-Multiplier, an denen zwei SATA-Backplanes mit insgesamt 10 1TB-Platten in einem RAID5 hängen (eben für Video ;-). Das Ganze ging fast zwei Jahre lang gut, dann hat's mir beim monatlichen Check das RAID "gebröselt" (zwei Platten "weg").
Ich hab' mich bewußt gegen die Hardware-RAID Lösung entschieden, weil die Softwarelösung besser portabel ist. Und ein 3ware Controller nur als SATA-Controller ist bei 10 Ports schon eine reichlich teure Geschichte. Die Software-Lösung wuppt immerhin auch so um 350..400MB/s, das reicht erstmal aus, so lange ich "nur" ein 1GBit-Netzwerk habe.
Bei der recht nervenaufreibenden Fehlersuche hat sich dann gezeigt, daß eins der SATA-Kabel zu Fehlern geführt hatte, die in Folge immer wieder Port-Resets angestoßen hat, bis der Kernel dann irgendwann auch nur noch Register-Dumps ausgespuckt hatte.
Zwei weitere flutschneue Kabel aus dem Lieferumfang eines schweineteuren Asus-Boards haben sich gleich als reif für die Tonne entpuppt, erst mit dem dritten Kabel ging's dann endlich. Seitdem ist in dieser Beziehung Ruhe. Das RAID ließ sich dann wieder patchen und läuft jetzt wieder. Von den wichtigsten Daten (Mails, Fotos, Dokumente etc.) gibt es natürlich Backups, aber für die 8TB Video-Sammelei ist das halt nicht praktikabel.
Nachdem auch die SATA-Library immer noch diverse schwere Fehler in Bezug auf Port-Multiplier und Backplanes hat die die Platten mittels "Powerup In Standby" starten, hat mein Enthusiasmus für die Selbstbaulösung doch einen ziemlichen Dämpfer erhalten.
Übrigens: Wenn ich mich richtig erinnere hatte ein Kunde mal jede Menge Ärger mit seinem neuen Server und 3ware Controller. Platten und Controller haben sich ums Verplatzen nicht vertragen, es gab immer wieder Ausfälle im RAID. Zum Schluß hat - wenn ich mich richtig erinnere - der Dienstleister alle Platten tauschen müssen...
Viele Grüße,
Torsten
QuoteOriginal von cyril
Der Kernel hat sich beim Freigeben vom Speicher zerknickt.
Mach mal einen Backtrace vom Prozess der da werkelt.
Der Prozess war ein Backup-Script das die Mailbox im mbox-Format auf die dritte Platte schieben sollte...
#! /bin/bash
# Edit the following two values if necessary
MBOXDIR="/Backup/Scalix"
SXDIR="/opt/scalix/bin"
# No more editing after this line
echo "Mailbox Backup Starting [`date`]"
if [ -d $MBOXDIR ]; then
echo "Found Backup Directory ${MBOXDIR}. Using It."
else
echo "Creating Backup Directory ${MBOXDIR} to backup mailboxes."
mkdir -p ${MBOXDIR}
fi
for i in $(${SXDIR}/omshowu -m all | cut -d "/" -f 1 | sed -e 's: $::g' -e 's/ /\//g'); do
user=`printf "$i" | sed -e 's:/: :g'`
#
# $user = Username With Space
# $i = Username With \ Before Space
# ex: $user="Firstname Lastname"
# ex: $i="Firstname\ Lastname"
#
echo
echo +++++++++++++++++++++++++++++++++++++++++++++
echo ${user}
if [ -a $MBOXDIR/$i.mbox ]; then
echo "Existing backup found. Deleting before creating new backup."
rm -f ${MBOXDIR}/${user}.mbox
fi
echo "Backing up user ${user}"
nice -n 19 ${SXDIR}/sxmboxexp -u "${user}" -a ${MBOXDIR}/"${user}".mbox --listlevel folder -F
echo +++++++++++++++++++++++++++++++++++++++++++++
done
echo
echo "Finished backing up user data."
echo
echo
echo "Backing up public folders..."
if [ -a $MBOXDIR/public_folders.mbox ]; then
echo "Existing backup found. Deleting before creating new backup."
rm -f ${MBOXDIR}/public_folders.mbox
fi
nice -n 19 ${SXDIR}/sxmboxexp -p -a ${MBOXDIR}/public_folders.mbox --listlevel folder -F
echo "Done with mailbox backup! [`date`]"
echo
Display More
QuoteDisplay MoreOriginal von torsten lang
Moin moin,
das sieht nach 'nem bösen Crash im Filesystemtreiber aus. Ich hatte sowas kürzlich bei meinem Server wegen kaputten/minderwertigen SATA-Kabeln. Die Kiste hat einen Adaptec 1430SA und zwei Port-Multiplier, an denen zwei SATA-Backplanes mit insgesamt 10 1TB-Platten in einem RAID5 hängen (eben für Video ;-). Das Ganze ging fast zwei Jahre lang gut, dann hat's mir beim monatlichen Check das RAID "gebröselt" (zwei Platten "weg").
Ich hab' mich bewußt gegen die Hardware-RAID Lösung entschieden, weil die Softwarelösung besser portabel ist. Und ein 3ware Controller nur als SATA-Controller ist bei 10 Ports schon eine reichlich teure Geschichte. Die Software-Lösung wuppt immerhin auch so um 350..400MB/s, das reicht erstmal aus, so lange ich "nur" ein 1GBit-Netzwerk habe.
Bei der recht nervenaufreibenden Fehlersuche hat sich dann gezeigt, daß eins der SATA-Kabel zu Fehlern geführt hatte, die in Folge immer wieder Port-Resets angestoßen hat, bis der Kernel dann irgendwann auch nur noch Register-Dumps ausgespuckt hatte.
Zwei weitere flutschneue Kabel aus dem Lieferumfang eines schweineteuren Asus-Boards haben sich gleich als reif für die Tonne entpuppt, erst mit dem dritten Kabel ging's dann endlich. Seitdem ist in dieser Beziehung Ruhe. Das RAID ließ sich dann wieder patchen und läuft jetzt wieder. Von den wichtigsten Daten (Mails, Fotos, Dokumente etc.) gibt es natürlich Backups, aber für die 8TB Video-Sammelei ist das halt nicht praktikabel.
Nachdem auch die SATA-Library immer noch diverse schwere Fehler in Bezug auf Port-Multiplier und Backplanes hat die die Platten mittels "Powerup In Standby" starten, hat mein Enthusiasmus für die Selbstbaulösung doch einen ziemlichen Dämpfer erhalten.
Übrigens: Wenn ich mich richtig erinnere hatte ein Kunde mal jede Menge Ärger mit seinem neuen Server und 3ware Controller. Platten und Controller haben sich ums Verplatzen nicht vertragen, es gab immer wieder Ausfälle im RAID. Zum Schluß hat - wenn ich mich richtig erinnere - der Dienstleister alle Platten tauschen müssen...
Viele Grüße,
Torsten
Das mit den Kabel ist echt eine wahrscheinliche Fehlerquelle, zumal ich zunächst auch ein SW-Raid aufgesetzt hatte (mit den gleichen SATA-KAbeln) und ab und an (nicht reproduzierbare) Kernel Panic hatte...
[Blocked Image: http://www.skt-invest.de/fotos/P1020132.jpg]
Tja, ist es wohl das Kabel an port-0...? Aber müsste die zweite Platte nicht einspringen? Schließlich ist das der Sinn eines Raid-1 oder?
Tja,
bei Deinem Screenshot zeigt das die "Degraded" Meldung auch genau das an, d. h. der Controller hat eine Platte aus dem RAID rausgeworfen. Wenn danach nix mehr ging, müssen wohl noch andere Fehler dazugekommen sein.
Es sollte jedenfalls zumindest keine Abstürze geben. Leider ist genau das aber eben nicht der Fall. Wie gesagt, da gibt es im Kernel im Bereich der SATA Treiber wohl noch einige sehr unschöne und vor allem schwerwiegende Bugs. Ein paar Probleme in Bezug auf "Power Up In Standby" konnte ich bei einem anderen Controller mit Silicon Image Chip durch Ändern von Retry-Counts und Timeouts beheben, bei dem Marvell Chip auf dem Adaptec gab es aber andere Probleme, da verzählen sich anscheinend einige Schleifen, d. h. wenn beim Hochfahren z. B. eine Platte an Port X am ersten Port-Multiplier beim ersten Durchlauf nicht gefunden wird und ein Retry stattfindet, dann schmeißt der Treiber nach meiner Beobachtung am zweiten Multiplier die Platte an Port X raus...
Bei meinem Crash hatte ich zusätzlich den Kampf, daß es auch beim Versuch, das RAID zu patchen, gleich wieder einen Segmentation Fault gab. Die Lösung war dann, eine aktuelle Live-Distri zu booten und von da aus das RAID zu reparieren.
Viele Grüße,
Torsten
Ich würde auf jeden Fall auch mal prüfen, ob die Festplatten von 3ware für den Controller freigegeben sind. Wir machen hier recht viel mit den 3ware Kontrollern, u. bei Platten, die nicht auf deren Liste stehen kann es immer wieder zu solchen Timeoutfehlern kommen. Ist in dem Server eine Backplane? Da gilt das gleiche, wenn sie nicht auf der Liste von 3ware steht kommt sie auch als Fehlerquelle in Frage.
Allerdings ist leider auch die Liste keine 100% Garantie Wir hatten einen Server mit 12 Samsung Platten aus der Liste. Trotzdem timeouts. Irgendwann hat der Support zugegeben, dass dieser Typ (ich glaube bis heute!) auf der Liste steht, aber nicht wirklich geeignet ist...
Gruss Alex
Vielen Dank für eure ausführlichen Erläuterungen, auch wenn diese nicht sehr aufbauend waren,aber dennoch einiges klargestellt haben. Server sind sehr komplexe Systeme die ausführlichen geplant und umgesetzt werden müssen. Das bedeutet, dass es wahrscheinlich einfacher ist ein fertig konfiguriertes System zu kaufen, oder? Könnt ihr in diesem Zuge einen Hersteller empfehlen..? Oder sollte ich das System noch nicht so schnell aufgeben.
Eine neue oder ausrangierte Workstation von IBM oder HP ist sicher schon mal ne gute Basis.
Es gibt ja auch Server die im PC Look und nicht in 19" daher kommen.
Don’t have an account yet? Register yourself now and be a part of our community!