[tvscraper] Sammlung von Fehlern beim Scrapen von Aufnahmen und EPG

  • Nachdem ich den größten Teil der Fehler beim Scrapen von Aufnahmen durch Umbenennen des Pfades und editieren der info-Datei beseitigen konnte, gibt es immer noch ganz wenige Aufnahmen, bei denen das nicht klappt. Auch beim Scrapen des EPG konnte ich Fehler feststellen. Diese Fehler führen zu Fehlfunktionen bei den neuen Funktionen Duplikate in Aufnahmen und autoTimer. Deshalb denke ich, kann es nicht schaden, wenn man mal einen Blick darauf wirft und das Scrapen evtl. verbessern kann.


    Bevor man den Fehler meldet, sollte man erst mal selber versuchen, den Pfad oder die info-Datei anzupassen.

    Die nötigen Informationen für Filme gibt es hier:

    https://www.themoviedb.org/

    und für Serien hier:

    https://thetvdb.com/


    Folgende Daten sollten mit angegeben werden:


    1. Objekt: Film, Serie oder EPG

    2. Titel: Name der Aufnahme oder Sendung

    3. Link: zu der Aufnahme bei https://www.themoviedb.org/ oder https://thetvdb.com/

    4. Fehler: keine/falsche Erkennung

    Bei Aufnahmen:

    5. Pfad: zur Aufnahme

    6. Inhalt der info-Datei


    Bei EPG:

    5. Inhalt zu dem betreffenden Eintrag aus der epg.data


    Falls das Problem gelöst werden konnte, sollte der Beitrag editiert werden und es in diesem vermerkt werden.

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

  • Objekt: Film

    Titel: Die nackte Kanone 2 1/2

    Link: https://www.themoviedb.org/mov…d-gun-2-the-smell-of-fear

    Fehler: keine Erkennung


    Pfad:

    Code
    1. /video/videos/_Die_nackte_Kanone/%Die_nackte_Kanone_2_1~2/2020-04-14.05.41.6-0.rec/inf

    info:


    Erledigt: 2 1/2 in 2½ geändert. Damit wird die Aufnahme richtig erkannt.

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

    The post was edited 1 time, last by heifisch ().

  • Objekt: Film

    Titel: Casino Royale

    Link: https://www.themoviedb.org/movie/12208-casino-royale

    Fehler: falsche Zuordnung zu "James Bond 007 - Casino Royale"

    Pfad:

    Code
    1. /video/videos/%Casino_Royale/2019-02-07.23.56.17-0.rec/info

    info:


    Erledigt: Cache mit svdrpsend plug tvscraper delc "casino Royale" gelöscht. Danach passte es.

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

    The post was edited 1 time, last by heifisch ().

  • Objekt: EPG 3sat

    Titel: "Sarah Hakenberg: Wieder da!"

    Fehler: legt einen falschen Autotimer an wegen der Aufnahme "Er ist wieder da"

    Link: https://www.themoviedb.org/movie/318917-er-ist-wieder-da


    Timer:

    Code
    1. 0:S19.2E-1-1010-11150:2022-10-01:2245:2345:10:99:autoTimerRecordings~Sarah Hakenberg| Wieder da!:<tvscraper><causedBy>videos~%Er ist wieder da</causedBy><reason>improve</reason></tvscraper>

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

  • Zu Die nackte Kanone 2½:

    die themoviedb API findet nichts, wenn ich nach "Die nackte Kanone 2 1/2" suche.

    Könntest Du den Film umbenennen, in "Die nackte Kanone 2½"?

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

    The post was edited 1 time, last by MarkusE ().

  • Zu Casino Royale:

    Das müsste er eigentlich korrekt finden.

    Kannst Du im syslog nach "Casino_Royale" suchen, und die passenden "searchResultTvMovie::log" posten? Zur ID 12208 und zur ID 36557 .


    Falls diese Einträge fehlen:

    Auf der Konsole

    svdrpsend plug tvscraper delc "casino Royale"

    eingeben, das löscht den cache.

    Im VDR Menü, bei den tvscraper Einstellungen, "Debug logging aktivieren" auf ja.

    Dann das Videoverzeichnis scrapen

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • Zu Titel: "Sarah Hakenberg: Wieder da!"


    Das Problem ist, dass es dazu keinen korrekten Eintrag in der Internet db gibt.

    Wenn ich nichts finde, lasse ich den Text vor dem : weg. Weil vor dem : manchmal der Star steht, z.B.:

    Jackie Chan: Der Mythos


    Dann suche ich nach "Wieder da!", und es erfolgt eine falsche Zuordnung.

    Du könntest in der override.conf Datei eintragen, dass "Sarah Hakenberg: Wieder da!" nicht gescraped werden soll.

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x


  • Nach dem Löschen des Caches hat es die Aufnahme korrekt zugeordnet.


    Vor dem Löschen sah es im Log so aus:

    Code
    1. Sep 29 09:57:04 vdr vdr[2901]: [2956] tvscraper: Scrap recording "/video/videos/_James_Bond_007/%21_Casino_Royale/2016-04-04.22.16.20-0.rec"
    2. Sep 29 09:57:04 vdr vdr[2901]: [2956] tvscraper: Scrap event: search string "21 casino royale", title "James Bond 007 - Casino Royale", start time: 2016-04-04 22:15:00
    3. Sep 29 09:57:04 vdr vdr[2901]: [2956] tvscraper: found movie cache 21 casino royale => 36557
    4. --
    5. Sep 29 10:00:12 vdr vdr[2901]: [2956] tvscraper: Scrap recording "/video/videos/%Casino_Royale/2019-02-07.23.56.17-0.rec"
    6. Sep 29 10:00:12 vdr vdr[2901]: [2956] tvscraper: Scrap event: search string "casino royale", title "Casino Royale", start time: 2019-02-07 23:55:00
    7. Sep 29 10:00:12 vdr vdr[2901]: [2956] tvscraper: found movie cache casino royale => 36557


    Nach dem Löschen sah es so aus:


    Also bei Problemfällen, auch mal den Cache löschen?

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

  • Das schaue ich mir an.


    Allerdings gibt es eine ganze Menge falscher Timer auch ohne ":"


    Und das dürfte schlimmer werden, je mehr Aufnahmen man hat.

    Ich weiß nicht, ob dass mit der override.conf eine praktikable Lösung ist.


    Aber Danke!


    Gruß

    Heiko

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

  • Hi,


    Im git ist ein update.

    Damit werden weniger Filme/Serien falsch identifiziert, zu denen es keine Einträge in den externen Datenbanken gibt.


    Heiko, wenn Du möchtest, kannst Du den Wert von

    float minMatch = 0.5;

    in searchEventOrRec.c (Zeile 278) testweise ändern.

    Der Wert sollte zwischen 0 und 1 sein.

    0: Das alte Verhalten, dann werden (relativ) viele Events falsch zugeordnet.

    1: Keine Events werden zugeordnet.


    Ich denke, 0.5 ist für die Praxis gar nicht schlecht. Wenn Du möchtest, kannst Du ja mal testweise auf 0.6 gehen.


    ~ Markus

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • Danke.


    Mit "float minMatch = 0.5;" sind folgende "falschen Timer" nach dem Löschen, wieder angelegt worden:


    Ich habe den Wert in mehreren Tests erhöht.

    Selbst bei 1.0 werden die falschen Timer angelegt:


    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

    The post was edited 1 time, last by heifisch ().

  • Der Wert ist für die Zuordnung von Events zu Filmen. Nicht für Autotimer

    Also Cache löschen, epg neu scrapen und prüfen, ob die Events noch den falschen Filmen zugeordnet sind

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • Also Cache löschen, epg neu scrapen und prüfen, ob die Events noch den falschen Filmen zugeordnet sind


    Kannst Du das bitte mit dem löschen des Cache genauer beschreiben?

    Meinst Du mit svdrpsend plug tvscraper delc "aufnahme" den Cache zu den zugeordneten Aufnahmen löschen?


    Im übrigen das Löschen des Cache mit diesem Befehl für "Casino Royal" gemäß hier hatte nur kurz zu der richtigen Zuordnung geführt.

    Nach reboot und Scrapen der Recordings, war die falsche Zuordnung zu 007 wieder da.

    Ich habe dann mal zusätzlich svdrpsend plug tvscrape delm probiert. Danach hat es dauerhaft gepasst.

    Kannst Du das Verhalten nachvollziehen?


    Gruß und Danke.

    Heiko

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

  • im Cache steht der Titel des Events
    svdrpsend plug tvscraper delc "Titel des Events"


    Casino Royal: Das kann eigentlich nur falsch gescraped werden, wenn die Daten aus der info Datei fehlen

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • im Cache steht der Titel des Events
    svdrpsend plug tvscraper delc "Titel des Events"

    Ich habe damit auch keinen Erfolg.

    Ich habe bei jedem Versuch den Eintag des Event aus dem Cache gelöscht.

    Und trotzdem, egal was ich bei minMatch eintrage, selbst bei 1.0 werden die falschen Timer nach dem Scrapen wieder angelegt.

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

  • Kannst Du ein Beispiel EPG Event nennen?

    Sender, Name, Uhrzeit?



    zu Casino Royal: Hast Du 2 Aufnahmen, die beide Casino Royal heißen, aber unterschiedliche Filme sind?

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • Ich habe damit auch keinen Erfolg.

    Ich habe bei jedem Versuch den Eintag des Event aus dem Cache gelöscht.

    Und trotzdem, egal was ich bei minMatch eintrage, selbst bei 1.0 werden die falschen Timer nach dem Scrapen wieder angelegt.

    Es geht darum, zu erreichen, dass tvscraper dem EPG event keinen (falschen) Film mehr zuordnet.

    Hier gibt es neben dem cache in der Datenbank noch einen 2. cache, der sich die Event IDs / Filme merkt.

    Diesen 2. cache kannst Du durch eine Neustart des VDR löschen.

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • Kannst Du ein Beispiel EPG Event nennen?

    Sender, Name, Uhrzeit?

    Der Timer:

    Code
    1. 1:S19.2E-1-1019-10302:2022-10-28:2000:2200:10:99:autoTimerRecordings~Der Patient:<tvscraper><causedBy>videos~%Der englische Patient</causedBy><reason>improve</reason></tvscraper>


    Die EPG-Daten von Arte HD Fr, 28.10.22 20:15 - 21:45:


    zu Casino Royal: Hast Du 2 Aufnahmen, die beide Casino Royal heißen, aber unterschiedliche Filme sind?


    Zu Casino Royal, dass ist wohl ein Missverständnis. Das Problem hat sich erledigt.

    Ich wollte nur mitteilen, dass ein Scrapen nach Entfernen des Filmes aus dem Cache mit delc, der Film korrekt erkannt wurde.

    Aber bei dem nachfolgenden Scrapen nach einem reboot, wurde der Film wieder falsch zugeordnet.


    Es gibt 2 Filme in denen "Casino Royal" vorkommt.

    Casino Royale

    James Bond 007 - Casino Royale


    Hier die Auszüge aus dem Log beider Filme dazu:


    Mir war nur unklar, warum es, nachdem die Zuordnung schon gepasst hatte, wieder falsch zugeordnet wurde.


    Jetzt passt es aber "Casino Royal" ist erledigt!

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

  • Es geht darum, zu erreichen, dass tvscraper dem EPG event keinen (falschen) Film mehr zuordnet.

    Hier gibt es neben dem cache in der Datenbank noch einen 2. cache, der sich die Event IDs / Filme merkt.

    Diesen 2. cache kannst Du durch eine Neustart des VDR löschen.


    Da ich bei meinen Tests, die falschen Timer bei gestoppten VDR aus der timers.conf gelöscht und den VDR im Anschluss wieder gestartet hatte, sollten alle Caches gelöscht gewesen sein...


    Code
    1. svdrpsend plug tvscraper delc "Autobahn von oben nonstop - Sachsen
    2. svdrpsend plug tvscraper delc "Report Mainz: Waffen für alle"
    3. svdrpsend plug tvscraper delc "In tödlicher Mission"
    4. svdrpsend plug tvscraper delc "Björn Freitags Heimathäppchen-Duell"
    5. svdrpsend plug tvscraper delc "Der Letzte seiner Art"
    6. svdrpsend plug tvscraper delc "Welt retten"
    7. svdrpsend plug tvscraper delc "Der Patient"
    8. svdrpsend plug tvscraper delc "Lebenslänglich - 52 Jahre unschuldig im Knast?"
    9. svdrpsend plug tvscraper delc "Der Kommissar und der See - Liebeswahn"

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

  • Hi Heiko,


    Im git ist ein Update.

    Jetzt werden Zuordnungen zwischen Events und Filmen explizit gelöscht, wenn der scraper nichts findet.

    Damit wird nun "Der Patient" korrekt angezeigt (nichts gefunden).


    ~ Markus

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x