gelöst: Hilfe, mein System stirbt nach exakt 60 Minuten

  • Ich hatte es in einem anderen Thread schon erwähnt, komme aber einfach nicht weiter.


    Mein Rechner (Hermes 651P; Celeron 2.0GHz, 512MB RAM, Orinoco WLAN 11Mbit (Prism2), TT1.6) hängt sich grundsätzlich exakt 60 Minuten und 0 Sekunden nach dem Starten auf, aber nur sofern ein 2.6er Kernel geladen wurde (egal welcher). Unter 2.4 läuft der Rechner absolut stabil.


    Ein identischer Fehler wurde bereits hier gepostet, allerdings ohne Lösung. Ich habe gegoogelt bis zum Umfallen, nichts gefunden.


    Welcher Dienst oder Timer könnte nach 60 Minuten zuschlagen und den Rechner anhalten?


    Symptome: Rechner bleibt einfach stehen. Auf dem Bildschirm kernel panic, allerdings kein Eintrag in irgendwelchen logdateien (/var/log/*).


    Bereits probiert:
    - Neuinstallation mit Debian Sarge und kernel 2.6.8-2
    - Neuinstallation mit Debian Etch und kernel 2.6.12-1
    - apt-get dist-upgrade von Etch auf Sid.
    - kernel upgrade auf 2.6.14-2
    - kernel upgrade auf 2.6.15
    - kernelsourcen 2.6.14 von kernel.org selbst gebaut
    - kernelsourcen 2.6.15 von kernel.org selbst gebaut
    - dabei verschiedene .configs probiert (default, wilderigel und eigene)


    - hdparm -d0 -u1 /dev/hda und hdc
    - sensors Paket neu installiert
    - WLAN Karte entfernt und deren Module nicht geladen
    - ich starte grundsätzlich mit "apm=power-off noapic nolapic acpi=off"


    VDR ist noch gar nicht installiert - nur das nackte Debian Grundsystem ohne extra Pakete.


    Also, wer könnte der Bösewicht in meinem System sein...und was kann ich tun, um das zu debuggen???? Bitte helft mir, ich habe jetzt schon 20 - 30 Stunden damit verschwendet und bin am Verzweifeln!

  • Auch wenn es ziemlich sicher nicht die Ursache ist (klingt ja schon irgendwie nach Software): hast Du mal einen Speichertest gemacht?


    Bei völlig unmotiviertem Hängenbleiben war das bei mir immer die Ursache. Ein Versuch ists vielleicht wert...


    Hannes


    robbitobbi://Scenic xB @ 866MHz/~Nexus2.1 - Budget TT 1.0 (Empfangs-VDR)
    fliewatueuet://ScenicxB @ 800MHz/~i810fb-xinelibout (Client)

  • Was läuft denn überhaupt noch alles auf dem System?

  • Speichertest: Ja habe ich sogar gemacht, über 1 Stunde in der Schleife ohne Fehler. Speicherfehler würde auch nicht unbedingt einen Absturz exakt und konsistent nach 60 Minuten 0 Sekunden erklären, oder?


    Zitat

    Original von wirbel
    Was läuft denn überhaupt noch alles auf dem System?


    ps -ef:



    lsmod:


  • Könnte es evtl ein atd oder cron Job sein?

  • Wie sieht's denn mit den Onboard-Grafikeinstellungen aus? Sind die auf Default-Werten (evtl. erstmal BIOS-Defaults laden und damit mal testen). Ich hatte Kernel-Panics, nachdem ich die Größe des Grafikspeichers im BIOS verstellt hatte (normal braucht man für 'ne Textkonsole keine 32M). Sind evtl. irgendwelche Power-Management Features aktiv?


    Viele Grüße,
    Torsten

    "The day Microsoft makes something that doesn't suck is probably
    the day they start making vacuum cleaners" - Ernst Jan Plugge
    __________________
    Torsten Lang

  • also ich würde erst mal gucken, ob sich in den logs kurz vor dem Absturz noch etwas findet.
    Außerdem, wie wirbel es schon andeutete: Kill mal den cron und den at daemon und guck was nach der besagten Stunde passiert.
    Wenn er dann läuft: Was steht in den crons ?
    Wenn nicht, ja dann ähhhhh............... :rolleyes:


    Gruß
    beagle

    Asus TUSL2-C, 128MB, 1xTT FF 2300 mod. 2xTT Budget DVB-S 1.5, SP1614, ND3550A, 2.6.20.3, Debian etch, Tobi experimental etch(1.4.7-1ctvdr1), ACPI wakeup, Psone Display.

  • Also in den cron / at spools stand nichts drin, aber ich kille die daemons jetzt mal. Test läuft.... (1 Stunde warten, dann melde ich mich wieder).


    Ansosten: Leider steht in den logfiles auch vor dem Absturz nichts drin, da hatte ich natürlich zuerst gesucht. Es steht nach dem System-Start im Prinzip eine Stunde lang nichts mehr drin (es sei denn, ich arbeite aktiv am System, mounte Platten etc)...


    torsten lang: Also apm=off, welche anderen Power Management Sachen könnte ich noch überprüfen? Grafikspeicher habe ich auch nicht verstellt, kann ich aber nochmal im BIOS nachprüfen. Aber würde dann die Panic nicht früher bzw unregelmässig auftreten, nicht immer nach 60 Minuten?

  • Zitat

    Original von Demnos
    torsten lang: Also apm=off, welche anderen Power Management Sachen könnte ich noch überprüfen? Grafikspeicher habe ich auch nicht verstellt, kann ich aber nochmal im BIOS nachprüfen. Aber würde dann die Panic nicht früher bzw unregelmässig auftreten, nicht immer nach 60 Minuten?


    Denk auch mal an die festplatte. Hdparm kann nach einen timeout die platten abschalten.
    Andererseits hast du ja schon mehrfach das system geändert.
    Nach APM/ACPI würd ich trotzdem mal suchen. Am besten alles aus.


    gruss Peter

    Mein anderer VDR ist (auch) ein EPIA
    1)VIA M10000-Nehemiah, 160+120G Samsung; NEC 1300A; YY A106; LCD20x4 ...
    2) ctvdr+e-tobi ; C3M266+1,2GHz-Nehmiah; 160G Samsung + 4x500G Seagate SATA; NEC3500; TT-Case; DVB-S 1.3+4MB + Nova ; gLCD 240x128 ...
    . . .TB rulez. . .

  • Hi,


    Kannst vorab auch einmal ein Blick nach /etc/cron.hourly/ und /etc/crontab werfen was da so stuendlich ausgefuehrt wird. Sieht schon sehr nach cron aus.
    Ansonsten ... auf was fuer eine Zeit ist die Lease vom DHCP eingestellt ? Hatte hier auch eine Zeitlang ziemliche Interrupt Probleme mit meiner Netzwerkkarte.

  • Also cron war es nicht. Nach kill von atd und cron war trotzdem nach einer Stunde wieder Schluss. Netzwerk scheidet auch aus (LAN Kabel steckt nicht und WLAN hatte ich ja testweise schon mal ausgebaut)


    Aber ich schau noch mal im BIOS und nach den Power Optionen.


    Danke schonmal an alle für die tollen Tips und Anregungen!

  • Hi,


    ich würde mal testhalber mit einem Knoppix oder DSL booten um festzustellen ob es an der OS Installation liegt. Wenn es dann länger als 60 Minuten geht liegt es wohl an der Installation. Wenn es auch mit anderem OS nach 60 Minuten abschaltet würde ich eher auf Hardwareprobleme tippen.


    Ist zumindest einen Versuch wehrt und vernichtet evtl. wenigstens eine Möglichkeit.


    bye
    Sven


    Link: Richtig fragen

  • Guter Tip. Gerade nochmal probiert: eine Kanotix CD mit 2.6.11 läuft absolut perfekt und stirbt nicht nach einer Stunde!!! Gerstern abend gebootet, heute morgen lebte der Rechner noch...


    Es ist also irgendwas mit der Installation nicht in Ordnung, wobei ich immer nur und mehrmals die Debian Install CD (mal "business card", mal "network install") genommen habe, sowohl sarge 3.1 als auch etch als auch 2 verschiedene "daily snapshots".


    Habe jetzt eben nochmal einiges in BIOS verändert:
    - VGA Shared memory von 32MB nach 4MB
    - AGP von 64MB auf 32MB (kleinster Wert, der erlaubt war)
    - APIC auch im BIOS disabled (obwohl ich ja schon mit "noapic" boote)


    Bei den Power Optionen im BIOS gab es nur die Wahl zwischen Sleep Mode S1, S3, Auto (S1 war eingestellt, habe ich gelassen) und ein paar Dingen zum Wakeup. Alle anderen Dinge waren bereits disabled.


    So, nun wieder eine Stunde warten....

  • Hi!


    Ich hatte das auch mal, bei mir war es apm.


    Seit dem boote ich mit der option apm=off und ohne automatischen Start des apmd.


    Damals hat der meinen Rechner immer abgeschaltet egal was ich auf dem System gemacht habe. Irgendwann war der Rechner einfach nicht mehr per Netzwerk zu erreichen.


    Gruß


    Marco

    Mein aktueller HD VDR:
    Hardware: Gehäuse: JCP-MI-105.B, MB Zotac IONITX A, 2 x TT DVB-S2-3600, LCD l4m320t, HD WD EVDS 2TB, Atric Einschalter, Logitech Harmony 700
    Software: Gentoo, vdr-1.7.17, xine-lib 1.2 mit df-osd-handling-patch-alter-vdpau-h264-decoder Patch, xineliboutput-cvs + vdr-sxfe

  • Zitat

    Original von Demnos
    Es ist also irgendwas mit der Installation nicht in Ordnung, wobei ich immer nur und mehrmals die Debian Install CD (mal "business card", mal "network install") genommen habe, sowohl sarge 3.1 als auch etch als auch 2 verschiedene "daily snapshots".


    Wie, Du hast schon mehrfach neu installiert und trotzdem geht's nicht? Hast Du dazu jedesmal neu formatiert? Check doch mal die Platte mit badblocks - evtl. startet nach einer Stunde irgendein update (manpages, locatedb...) das über defekte Sektoren stolpert. Hmm, aber cron hattest Du ja schon abgeschaltet, oder?


    Hast Du 'nen zweiten Rechner? Dann setz' das syslog doch mal um auf remote-logging, dann kannst Du die Fehlermeldung vielleicht besser abfangen und jemanden finden der damit was anfangen kann...


    Pit

    VDR2: ASRock J4105-ITX, DVBSky S952, openSUSE Tumbleweed, VDR 2.4.7

    softhddevice/vaapidevice, DFAtmo, xmltv2vdr, tvscraper, tvguideng, VDRAdmin-AM (alles git, aber alt)

  • Zitat

    Original von mgoeben
    Ich hatte das auch mal, bei mir war es apm.
    Seit dem boote ich mit der option apm=off und ohne automatischen Start des apmd.


    War es bei Dir auch jedesmal nach 60 Minuten? apm=off habe ich ja schon, aber an den apmd hatte ich noch nicht gedacht, werde ich mal probieren.


    EDIT: wie Du an meinem "ps-ef" log siehst, apmd läuft nicht! Aber ich hatte leider woanders gepennt, momentan starte ich tatsächlich mit "apm=power-off", werde also nochmal mit "apm=off" versuchen, vielleicht ist es ja genau das! Danke für den Tip.


    Die Änderungen am BIOS (VGA, etc) haben übrigens keine Besserung gebracht!


    Zitat

    Original von Der_Pit
    Wie, Du hast schon mehrfach neu installiert und trotzdem geht's nicht? Hast Du dazu jedesmal neu formatiert?


    Ja, jedesmal ganz neu formatiert, zumindest die Partition, /dev/hda1 auf der ich immer rumspiele. Ich habe auf /dev/hda3 noch mein Produktionssystem (ctvdr3 mit 2.4 kernel) und das boote ich immer, wenn Frau und Kinder mal was sehen wollen. Zwischen den Systemen schalte ich um, indem ich auf jeder Partition eine andere lilo.conf habe, die im MBR /dev/hda jeweils die zu bootende Partition einträgt. Wenn ich also in mein Testsystem will, mache ich mount /dev/hda1 /mnt/hda1; chroot /mnt/hda1; lilo; exit; init 6


    Zitat

    Check doch mal die Platte mit badblocks - evtl. startet nach einer Stunde irgendein update (manpages, locatedb...) das über defekte Sektoren stolpert. Hmm, aber cron hattest Du ja schon abgeschaltet, oder?


    Ja, cron und atd hatte ich abgeschaltet. badblocks kann ich nochmal versuchen, aber ein fsck von /dev/hda1 (gemacht, wenn ich /dev/hda3 gebooted habe) läuft immer problemlos durch.


    Zitat

    Hast Du 'nen zweiten Rechner? Dann setz' das syslog doch mal um auf remote-logging, dann kannst Du die Fehlermeldung vielleicht besser abfangen und jemanden finden der damit was anfangen kann...


    Ok, gute Idee, das kann ich mal versuchen!

  • Ich bin zwar kein LINUX-Insider, aber kann es am clock liegen?
    werden irgendwo systemclock, HWclock, Netwerk-Clock oder Sommerzwit, UTC o.ä. angesprochen bzw. referenzen gesetzt?
    mich wundert die exaktheit.

    LINVDR 0.7 -- Dr. Seltsam 2.6.24.2 Kernel + DXR3 Patch -- Tarandor/MT Patch -- Cody Patch
    AKAI CS-705D TAPEDECK Gehäuse, ASUS P2B-DS mit 2 XEON 400 MHZ Passiv gekühlt, Samsung SP1604, Airstar2, Hollywood+ auf RGB gemod, ATX Netzteil "selbstverpassivt"

  • Zitat

    Original von proffie
    Ich bin zwar kein LINUX-Insider, aber kann es am clock liegen?
    werden irgendwo systemclock, HWclock, Netwerk-Clock oder Sommerzwit, UTC o.ä. angesprochen bzw. referenzen gesetzt?
    mich wundert die exaktheit.


    Leider weiss ich nicht genau, wo und wie ich danach suchen soll? Ich denke in jedem System werden diese Dinge irgendwo angesprochen, aber wo genau, und was davon könnte den Fehler auslösen?


    Aber die Exaktheit ist in der Tat erstaunlich. Wenn ich den Rechner boote und im syslog sehe, dass der kernel z.B. um 10:39:26 gestartet ist, kann ich um 11:39 zum Rechner gehen und exakt wenn die Sekunde von 25 auf 26 umspringt, kommt der kernel panic auf den Bildschirm.


    Achso, den Rechner habe ich beim Debian Installer immer auf UTC Uhr eingestellt. Könnte natürlich mal auf lokale Zeit umstellen...


    Mir ist noch was eingefallen: Die kernel panic Nachricht füllt ja mehr als den 80x25 Bildschirm und schiebt natürlich evtl. direkt davor liegende Nachrichten nach oben weg. Evtl. kann man per framebuffer einen längeren Schirm einstellen (43 Zeilen oder so) um alles lesen zu können...

  • Also apm=off brachte nix.


    Es ist zum Heulen.


    Gerade getestet:


    1. System gebootet (19:30:00)
    2. hwclock auf 20:29:00 vorgestellt, he he he
    3. hwclock -s um auch systemuhr zu verstellen
    4. Rechner läuft auch um 20:31:00 noch!


    Also, verdrehen der Uhr führt nicht zum Absturz. Ich gehe davon aus, dass er dann um 20:30 (die echte Uhrzeit) wieder stehen bleibt...


    Interessant, auch wenn es mich nicht viel weiterbringt...

  • Ich würde im BIOS mal nach Power-Saving-Funktionen fahnden und sie komplett deaktivieren.


    CU
    Oliver

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!