Abstürze durch noad

SHF · 7. Juni 2006

Hallo,

ich hatte am Sonntag beim Fernsehen das Problem, dass der VDR auf einmal nicht mehr auf die Fernbedienung reagieren wollte und die Festplatte die ganze Zeit arbeitete.

Top zeigte an, dass ein noad-Prozess auf über 150Mb angewachsen war, blieb dann aber stehen. Da der Rechner auch nicht mehr auf Tastatur eingaben reagierte, war ich schon am überlegen, ob ich ihn ausschalte. Als plötzlich die Festplatte zu rattern aufhörte und auch der VDR wieder funktionierte.

Etwas später habe ich dann festgestellt, dass der Rechner nicht über das Netzwerk erreichbar war, VDR lief aber noch immer einwandfrei.

Ein Blick in die Logfile brachte folgendes zu Tage:
(/var/log/messages (gekürzt))

Code

Jun  4 18:10:00 vdr vdr: [1950] timer 5 (7 1630-1810 'Busters - Die Wissensjäger') stop
Jun  4 18:10:00 vdr vdr: [1950] executing '/opt/vdr/bin/noad --OSD --backupmarks --asd --statisticfile=/media/video/noadstat after "/media/video/Busters_-_Die_Wissensjäger/_/2006-06-04.16.30.30.05.rec"'
Jun  4 18:10:01 vdr noad[10521]: noad arg[0]: /opt/vdr/bin/noad
Jun  4 18:10:01 vdr noad[10521]: noad arg[1]: --OSD
Jun  4 18:10:01 vdr noad[10521]: noad arg[2]: --backupmarks
Jun  4 18:10:01 vdr noad[10521]: noad arg[3]: --asd
Jun  4 18:10:01 vdr noad[10521]: noad arg[4]: --statisticfile=/media/video/noadstat
Jun  4 18:10:01 vdr noad[10521]: noad arg[5]: after
Jun  4 18:10:01 vdr noad[10521]: noad arg[6]: /media/video/Busters_-_Die_Wissensjäger/_/2006-06-04.16.30.30.05.rec
Jun  4 18:10:01 vdr noad[10521]: noad args done
Jun  4 18:10:01 vdr noad[10521]: noad forked to pid 10522
Jun  4 18:10:01 vdr noad[10522]: nice ERROR(19,14): Success
Jun  4 18:10:01 vdr noad[10522]: Sunday,04.06.2006 18:10:01 start noad-0.6.0 for /media/video/Busters_-_Die_Wissensjäger/_/2006-06-04.16.30.30.05.rec
- Aufzeichnung beendet, noad startet.


[...]


Jun  4 18:11:28 vdr vdr: [10095] non blocking file reader thread ended (pid=10095, tid=10095)
Jun  4 18:11:28 vdr vdr: [10094] dvbplayer thread ended (pid=10094, tid=10094)
Jun  4 18:11:28 vdr vdr: [1950] switching to channel 6
Jun  4 18:11:28 vdr vdr: [10504] receiver on device 2 thread ended (pid=10504, tid=10504)
Jun  4 18:11:28 vdr vdr: [1950] buffer stats: 0 (0%) used
Jun  4 18:11:28 vdr vdr: [10524] receiver on device 2 thread started (pid=10524, tid=10524)
Jun  4 18:11:30 vdr vdr: [1950] confirm: Aufzeichnung löschen?
Jun  4 18:11:30 vdr vdr: [1950] warning: Aufzeichnung löschen?
Jun  4 18:11:31 vdr vdr: [1950] confirmed
Jun  4 18:11:31 vdr vdr: [1950] deleting recording /media/video/Busters_-_Die_Wissensjäger/_/2006-06-04.16.30.30.05.rec
- Aufzeichnung gelöscht.


[...]


Jun  4 18:17:09 vdr apcsmart[1219]: select: Cannot allocate memory
Jun  4 18:17:10 vdr kernel: __alloc_pages: 1-order allocation failed (gfp=0x1f0/0)
- Beginn der Fehlermeldungen. Noad füllt inzwischen fast den kompletten Speicher. Hohe Festplattenaktivität (swap).


[...]


Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1f0/0)
Jun  4 18:17:38 vdr last message repeated 6 times
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0xf0/0)
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
Jun  4 18:17:38 vdr kernel: VM: killing process named
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0xf0/0)
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
Jun  4 18:17:38 vdr kernel: VM: killing process sh
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1f0/0)
Jun  4 18:17:38 vdr last message repeated 14 times
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1f0/0)
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1f0/0)
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1f0/0)
Jun  4 18:17:38 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
Jun  4 18:17:38 vdr kernel: VM: killing process named


[... hier wird dann noch so einiges gekillt, unter anderem auch ssh, samba, ...]


Jun  4 18:19:14 vdr kernel: VM: killing process lpstat
Jun  4 18:19:14 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
Jun  4 18:19:14 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1f0/0)
Jun  4 18:19:14 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0xf0/0)
Jun  4 18:19:14 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
Jun  4 18:19:14 vdr kernel: VM: killing process sh
Jun  4 18:19:15 vdr upsmon[1231]: Poll UPS [localhost] failed - Data stale
Jun  4 18:19:16 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1f0/0)
Jun  4 18:19:17 vdr kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
Jun  4 18:19:17 vdr kernel: VM: killing process noad
- Ende der Fehlermeldungen. Der Rechner läuft, bis auf die gekillten Prozesse, weiter als währe nichts gewesen.

Alles anzeigen

Daraufhin hab ich die Logs des letzten halben Jahres nach "kernel: VM: killing process" durchsucht und bin öfters fündig gewordern. Das Problem dürfte bei mir für fast alle Abstürze verantwortlich sein!

Die Gemeinsamkeiten:
- VM killt Prozesse bis enweder noad erwischt wird oder der Watchdog-Timer den Rechner neu startet.
- Meistens (nicht immer) wurde die Aufnahme, an der noad arbeitet gelöscht.

Ich konnte den Absturz inzwischen auch reproduzieren. Es klappt nicht bei jedem Versuch, die Chancen stehen aber nicht schlecht.

Auch andere scheinen davon betroffen zu sein:
Hilfe! 100% CPU-Last durch VDR
Löschen von 8 Aufnahmen kurz nacheinander führt zum Absturz
[ANNOUNCE] noad-0.5.2

Nur eine Lösung konnte ich bislang noch nicht finden.

Ich glaube das Finden des Speicherloch in noad dürfte mich etwas überfordern. Ich will es daher erstmal mit einem Skript versuchen, was noad bei überschreiten einer gewissen Grösse killt (es scheint das es einige minuten dauert, bis noad eine kritische grösse erreicht hat, sollte daher machbar sein).

Hat jemand zufallig soetwas schon umgesetzt oder eine Idee wie das am unkompliziertesten (mit überschaubaren sed und cut aufrufen ;)) geht?

Oder gibt es eine elegantere Möglichkeit?
Kann man die Killreinfolge des Kernels beeinflussen?

Vielen Dank im voraus.

Urig · 8. Juni 2006

Mir ist das auch schon mal aufgefallen. Die wohl eleganteste Methode, dem Speicherhunger von noad Einhalt zu gebieten, dürfte ulimit sein. Damit kann man den maximal verfügbaren Speicher einschränken. (siehe bash-manual)

Ich wollte schon immer mal damit experimentieren, bin aber bisher nicht dazu gekommen.

Gruß,

Udo

PeterD · 8. Juni 2006

Ich kann mich auch erinnern diesen fehler schon mal gesehen zu haben.
Damals aber ohne swap partition.
Ich hab im moment 512MB drin und noch mal so viel swap.
Ein zweites system mit 256MB RAM und swap funktioniert auch einwandfrei.
Das problem wird aber heftiger mit XXV und mysql im hintergrund.
Das war einer der gründe wieder auf vdradmin zurückzugehen.

gruss Peter

SHF · 8. Juni 2006

@ Urig:
Danke, das mit ulimit klingt echt gut. Ich habe ein kleines Skript gebastelt, Test läuft gerade.

@ PeterD:
Je weniger RAM-Speicher frei ist desto problematischer scheit es zu sein.

steffen_b · 9. Juni 2006

Ok das könnte erklären, warum ich in den letzten Tagen Probleme hatte (exact nach einer (mehreren?) Aufnahmen war nichts mehr im log und ssh/dhcp/dns ging nicht mehr. Wenn es geklappt hat wäre ich sehr interessiert wie deine Tests verlaufen sind und was du exact gemacht hast

SHF · 10. Juni 2006

Zwischenbericht:

Im Anhang ist mein Skript, es muss einfach anstelle von noad gestartet werden. ("NOAD_DIR" anpassen!)
Noad wird dann von dem Skript gestartet wobei der von noad belegbare Virtuelle-Speicher auf 20000Kb begrenzt wird.
(Ich bin nicht 100% sicher, ob ich das Richtige beschränkt habe. Es scheint aber zu klappen, wenn ich auf 10000Kb begrenze wird noad sofort gekillt.)

Bei mir läuft noad wie immer, aber einen Absturz habe ich trotz öfteren probierens nicht mehr hinbekommen. Bei Gelegenheit werde ich dann noch die Logs auswerten, dann weiss ich sicher ob das Skript zugeschlagen hat.

SHF · 11. August 2006

Seit dem ich das Skript verwende hatte ich keinen Komplettabsturz meines VDR mehr.

Wie es aussieht scheint das Skript zu funktionieren. Beim Auswerten der Logfiles bin ich eben auf das Folgende gestossen:

Code

Aug  4 18:24:01 vdr vdr: [5220] timer 9 (6 1744-1824 'Abenteuer Leben - täglich Wissen~Fre 04.08.2006-17:47') stop
Aug  4 18:24:01 vdr vdr: [5220] executing '/opt/vdr/script_s/noad.sh --OSD --backupmarks --asd --statisticfile=/media/video/noadstat after "/media/video/Abenteuer_Leben_-_täglich_Wissen/Fre_04.08.2006-17#3A47/2006-08-04.17.44.20.10.rec"'
Aug  4 18:24:01 vdr noad[5349]: noad arg[0]: /opt/vdr/bin/noad
Aug  4 18:24:01 vdr noad[5349]: noad arg[1]: --OSD
Aug  4 18:24:01 vdr noad[5349]: noad arg[2]: --backupmarks
Aug  4 18:24:01 vdr noad[5349]: noad arg[3]: --asd
Aug  4 18:24:01 vdr noad[5349]: noad arg[4]: --statisticfile=/media/video/noadstat
Aug  4 18:24:01 vdr noad[5349]: noad arg[5]: after
Aug  4 18:24:01 vdr noad[5349]: noad arg[6]: /media/video/Abenteuer_Leben_-_täglich_Wissen/Fre_04.08.2006-17#3A47/2006-08-04.17.44.20.10.rec
Aug  4 18:24:01 vdr noad[5349]: noad args done
Aug  4 18:24:01 vdr noad[5349]: noad forked to pid 5350
Aug  4 18:24:01 vdr noad[5350]: nice ERROR(19,14): Success
Aug  4 18:24:01 vdr noad[5350]: Friday,04.08.2006 18:24:01 start noad-0.6.0 for /media/video/Abenteuer_Leben_-_täglich_Wissen/Fre_04.08.2006-17#3A47/2006-08-04.17.44.20.10.rec
[...]
Aug  4 18:29:46 vdr noad[5350]: noad aborted by signal Segmentation fault
Aug  4 18:29:46 vdr noad[5350]: [bt] Execution path:
Aug  4 18:29:46 vdr noad[5350]: [bt] /opt/vdr/bin/noad [0x805b713]
Aug  4 18:29:46 vdr noad[5350]: [bt] /opt/vdr/bin/noad [0x8058e48]
Aug  4 18:29:46 vdr noad[5350]: [bt] /lib/libc.so.6 [0x403bbbf8]

Alles anzeigen

Anmerkung: Die Aufnahme war miserabel, mehrere Aussetzer und Sprünge (zum Glück wars nichts Wichtiges :whatever). Es hat zu der Zeit gerade ordentlich geregnet und gewittert.

Abstürze durch noad

Jetzt mitmachen!

Teilen

Benutzer online in diesem Thema