rechner haengt sich komplett auf - wie komm ich drauf was es war?

  • hallo leute


    habe das problem, dass sich mein fileserver einfach in unregelmaessigen abstaenden einfach mal komplett aufhaengt. es laeuft ubuntu 12.04 drauf, und ich hab auch unity laufen (obwohls ein server ist). dh es haengt ein monitor und maus und tastatur immer dran.
    ploetzlich laesst sich der rechner ueber ip nicht mehr erreichen. ich geh in den keller, dreh den monitor auf. der ist schwarz (so wie immer wenn der bildschirmschoner den schrim abschaltet). ich bewege die maus, aber der schirm bleibt tot. ich komme auch nicht auf die konsole. tastatur reagiert auch nicht.
    mir bleibt nur den rechner brutal durch stromziehen vom netz zu nehmen. dann bootet er normal. und in den logs finde ich NICHTS verdaechtiges. also keine error, warnings oder sowas ...


    wie wuerdet ihr hier vorgehen? ich vermute dass irgendwelche stromsparmassnahmen da reinpfuschen. kann aber natuerlich auch ganz was anderes sein, wie cpu, ram etc ...


    danke!

    produktiv: intel dh67bl, sat>ip, octopusnet, 16gig boot-ssd, yavdr 0.6.1, cir lirc
    testing: zotac ion-f itx, 1x tt s2-3600 usb, 8gig boot-ssd, yavdr 0.5 testing
    tv: samsung 75" amp:denon avr-x1300

  • ram überprüfen
    nutzt du swap
    wenn abgeschaltet und der ram reicht nicht stürzt der auch ab


    ist so das was mir einfällt
    hatte es auch schon das das netzteil gesponnen hat (nach einer gewissen betriebszeit)

  • danke fuer deine tips. so wuerde ich auch rangehen. ist das die einzige moeglichkeit?
    meine frage zielte genau auf eine moeglichkeit ab noch IRGENDEINE fehlermeldung zu gesicht zu bekommen aus der man was machen koennte. ich wuerde gerne wenigstens eine kernel panic oder sowas sehen.
    aktuell tappe ich komplett im dunkeln. und wenn ich jetzt einfach mal auf verdacht ram tausche habe ich ja wieder keine idee ob das defekt war oder nicht. die tests ergeben ja nie probleme.
    swap hab ich laufen. es sind 4gig ram, und ich hab nochmal 8gig swap, die er auch nutzt. system laeuft auf einer ssd. und 4x 2tb 3.5" im raid5 verbund mit zfs.

    produktiv: intel dh67bl, sat>ip, octopusnet, 16gig boot-ssd, yavdr 0.6.1, cir lirc
    testing: zotac ion-f itx, 1x tt s2-3600 usb, 8gig boot-ssd, yavdr 0.5 testing
    tv: samsung 75" amp:denon avr-x1300

  • Wenn du das RAM gestetet hast (memtest), sollte das ja ausscheiden.
    Wenn die Ausfälle unregelmäßig sind, sollten IMHO Stromsparmaßnahmen ausscheiden
    - die sollten ja immer nach einer festgelegten Zeit an Inaktivität anspringen.
    Das Netzteil wäre immerhin eine Erklärung, warum in den Logs nichts auftaucht...

  • Moin!


    Netzteil würde ich auch testen, einfach mal im BIOS die Spannungen anzeigen lassen. Wenn die zu niedrig sind, austauschen.
    Das war bei ähnlichen Problemen, die ich erfahren habe, eigentlich immer der Auslöser. Wenn die erst mal ein gewisses Alter überschritten haben, können sie eben nachlassen.


    Lars.

  • memtest laeuft gerade nochmal. netzteil zeigt tadellose werte.

    produktiv: intel dh67bl, sat>ip, octopusnet, 16gig boot-ssd, yavdr 0.6.1, cir lirc
    testing: zotac ion-f itx, 1x tt s2-3600 usb, 8gig boot-ssd, yavdr 0.5 testing
    tv: samsung 75" amp:denon avr-x1300

  • Das heißt, so grundsätzlich ist er dann noch angeschaltet?


    jaja. er ist ja nicht sauber runtergefahren, sondern haengt ja am strom und laeuft. aber reagiert eben weder auf maus, noch tastatur, noch netzwerk. und bildschirm ist schwarz

    produktiv: intel dh67bl, sat>ip, octopusnet, 16gig boot-ssd, yavdr 0.6.1, cir lirc
    testing: zotac ion-f itx, 1x tt s2-3600 usb, 8gig boot-ssd, yavdr 0.5 testing
    tv: samsung 75" amp:denon avr-x1300

  • steht was im syslog?


    nix :) das stoppt einfach an der stelle wo es war. ohne besondere eintraege.

    produktiv: intel dh67bl, sat>ip, octopusnet, 16gig boot-ssd, yavdr 0.6.1, cir lirc
    testing: zotac ion-f itx, 1x tt s2-3600 usb, 8gig boot-ssd, yavdr 0.5 testing
    tv: samsung 75" amp:denon avr-x1300

  • Vielleicht ein Temperaturproblem? Läuft der CPU-Lüfter vernünftig? Bei mir half es schon mal die Wärmeleitpaste zu erneuern. Oder ein Störenfried auf der Stromleitung, wie ein Staubsauger oder eine Waschmaschine?


    Gruß Jan

    1:Dell PoweEdge T20; Xeon E3-1225 v3; 32GB RAM; Proxmox 5.4; MLD 5.4 als VDR-Server; 2 x Cine S2;
    2:Intel NUC i3 Passiv; 4GB RAM; 120GB SSD; easyvdr 3.5 als client; Harmony Hub

    2:Intel NUC i5 Passiv; 4GB RAM; 120GB SSD; easyvdr 3.5 als client; Harmony Hub
    3:Raspberry Pi 3B; MLD

  • meine frage zielte genau auf eine moeglichkeit ab noch IRGENDEINE fehlermeldung zu gesicht zu bekommen aus der man was machen koennte. ich wuerde gerne wenigstens eine kernel panic oder sowas sehen.


    Eine Möglichkeit wäre, syslog auf einen anderen Rechner umzuleiten, nur für den Fall, dass es eine eventuelle Fehlermeldung aus irgendwelchen Gründen nicht mehr auf die Festplatte geschafft hat.
    Eine andere Möglichkeit wären magische Tastenkombinationen, um gezielt eine Kernel-Panic auszulösen und an ein Crash-Dump zu gelangen (habe ich selbst aber noch nicht ausprobiert).

  • meine frage zielte genau auf eine moeglichkeit ab noch IRGENDEINE fehlermeldung zu gesicht zu bekommen aus der man was machen koennte. ich wuerde gerne wenigstens eine kernel panic oder sowas sehen.

    nur so eine idee. mal mittels lmsensors zyklisch (1min, 10sec, what so ever) die temperaturen von cpu, hd, graka, etc in eine datei schreiben. und nach dem crash schauen, ob es dem rechner irgendwie warm wurde.

    yavdr 0.5, AMD Athlon(tm) II X2 240e, MSI 770-C45, 4GB, Cine S2, Terratec Cinergy S2 PCI HD, TechniSat SkyStar2 DVB-S, TechniSat AirStar2 DVB-T

  • Wie alt sind MB und Netzteil ?
    Beulen auf den Elkos ?
    Goldkontakte von RAM und Einsteckkarten angelaufen ? Mit Zeitungspapier reinigen.

    vdr 1.7.23 suse 12.1 64 Bit 1xTTS2-6400 HD-USB: 24TB
    vdr 1.7.23 suse 11.3 64 Bit 1xTTS2-6400, 1xTTS2-3200 + ci HD:2TB
    vdr 2.2.0 Raspberry pi HD-USB: 2TB (Garten)

  • naja. wenn ein spannungsschiene mal runtergeht, dann kann das das board ziemlich durcheinanderbringen.

    produktiv: intel dh67bl, sat>ip, octopusnet, 16gig boot-ssd, yavdr 0.6.1, cir lirc
    testing: zotac ion-f itx, 1x tt s2-3600 usb, 8gig boot-ssd, yavdr 0.5 testing
    tv: samsung 75" amp:denon avr-x1300

  • Wenn remote syslog nicht zum Ziel führt, es gibt auch einen Mechanismus des Kernels, die Kernelmessages per Netzwerk auf einen anderen PC zu lenken. Da das sehr tief in den Netzwerkstack eingebaut ist, kann man damit sogar bei boot/suspend/hibernate noch kernel panic Meldungen und ähnlich fatale Meldungen fangen. Such mal nach dem Stichwort Netconsole.


    Gruß,


    Udo