[tvscraper] Sammlung von Fehlern beim Scrapen von Aufnahmen und EPG

  • Hallo Markus,


    es hat zwar nun nicht mehr den "Der Patient"-Timer angelegt, aber immer noch einen Haufen anderer falscher Timer.

    D.h. Timer für die es eigentlich keine Aufnahme gibt aber welche einer Aufnahme zugeordnet werden, die ähnlich heißt.

    Und ich habe die komplette Datenbank gelöscht bevor ich den letzten Test gemacht habe.


    Gruß

    Heiko

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

  • Hallo Heiko,


    im git ist ein Update.

    Du musst nicht die komplette Datenbank löschen, es genügt, den cache für die "falschen" Events zu löschen.


    svdrpsend plug tvscraper delc "Lebenslänglich - 52 Jahre unschuldig im Knast?"

    svdrpsend PLUG tvscraper delc "Björn Freitags Heimathäppchen-Duell"

    svdrpsend PLUG tvscraper delc "In tödlicher Mission"

    ...


    danach noch ein

    svdrpsend plug tvscraper scep


    ~ Markus

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • Hallo Markus.


    Das sieht schon viel besser aus! Danke!

    Jetzt habe ich nur noch 3 falsche Timer:


    Code
    1. SWR BW HD -->
    2. 1:S19.2E-1-1019-10303:2022-10-19:2001:2159:10:99:autoTimerRecordings~Crimetime| Lebenslänglich:<tvscraper><causedBy>videos~%Lebenslänglich</causedBy><reason>improve</reason></tvscraper>
    3. arte HD -->
    4. 1:S19.2E-1-1019-10302:2022-10-07:0445:0555:10:99:autoTimerRecordings~Tracks:<tvscraper><causedBy>videos~%Spuren</causedBy><reason>improve</reason></tvscraper>
    5. ARD alpha HD -->
    6. 1:S19.2E-1-1039-10377:2022-10-10:2045:2214:10:99:autoTimerRecordings~Der Letzte seiner Art:<tvscraper><causedBy>videos~ SciFi~%Ares - Der letzte seiner Art</causedBy><reason>improve</reason></tvscraper>


    Ein Frage habe ich noch zu der Funktion "Aufzeichnungen, die verbessert werden sollen":


    Ich hatte mir ja die "West of Liberty" Serie aus der Mediathek geholt und die info-Datei angepasst.

    Fehler sind 0 und in Live wird es als HD ausgewiesen.

    Trotzdem wird immer ein Timer angelegt:


    Code
    1. 3sat HD -->
    2. 1:S19.2E-1-1010-11150:2022-10-12:2210:2325:10:99:autoTimerRecordings~West of Liberty (5/6)~Folge 4:<tvscraper><causedBy>videos~ West of Liberty~West of Liberty (4)</causedBy><reason>improve</reason></tvscraper>


    Auf was wird eigentlich genau geschaut um festzulegen, das eine Aufnahme besser wird?

    Hier noch die info Datei der betreffenden Aufnahme:


    Code
    1. C ZDF Mediathek
    2. E 0 1572353477 2606
    3. T West of Liberty (4)
    4. S Folge 4
    5. D Krimiserie, Deutschland/Schweden/Marokko 2019|Die CIA macht Jagd auf den untergetauchten Kopf der Enthüllungsplattform Hydraleaks. Der Berliner Büroleiter glaubt, dessen Versteck ausgemacht zu haben: die syrische Botschaft. GT arrangiert ein Treffen mit Gemayl, dem Anführer der syrischen Flüchtlinge in Berlin. Er überzeugt ihn, an einem Angriff auf die syrische Botschaft teilzunehmen, um Gell dort herauszuholen. Licht versucht GT davon abzuraten.
    6. X 5 0B deu HDTV
    7. F 50
    8. P 50
    9. L 99
    10. O 0


    Danke und Gruß

    Heiko

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

  • Hi Heiko,


    C ZDF Mediathek


    ist SD. Da fehlt die channel ID, anhand der im Setup festgelegt wird, ob das HD ist.
    Du kannst entweder die channel ID von ZDF HD nehmen, oder Dir eine channel ID ausdenken (Format muss aber stimmen).

    Dann kannst Du im Setup einstellen, dass das HD ist. Hinweis: Kanäle, die nicht in der Channels.conf stehen, aber in einer Aufzeichnung verwendet werden, stehen unten in der Liste der Kanäle.


    ~ Markus

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • C ZDF Mediathek


    ist SD. Da fehlt die channel ID, anhand der im Setup festgelegt wird, ob das HD ist.
    Du kannst entweder die channel ID von ZDF HD nehmen, oder Dir eine channel ID ausdenken (Format muss aber stimmen).

    Dann kannst Du im Setup einstellen, dass das HD ist. Hinweis: Kanäle, die nicht in der Channels.conf stehen, aber in einer Aufzeichnung verwendet werden, stehen unten in der Liste der Kanäle.


    Danke, das habe ich jetzt angepasst.

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400


  • Log:

    Code
    1. Oct 7 09:08:41 vdr vdr[32316]: [32367] tvscraper: epg scraping done
    2. Oct 7 09:08:41 vdr vdr[32316]: [32367] timer 0 (21 2335-0029 'autoTimerRecordings~Tracks') set to event Fr. 07.10.2022 23:50-00:25 (VPS: 07.10. 23:50) 'Tracks'

    Timer:

    Code
    1. 1:S19.2E-1-1019-10302:2022-10-07:2335:0029:10:99:autoTimerRecordings~Tracks:<tvscraper><causedBy>videos~%Spuren</causedBy><reason>improve</reason></tvscraper>

    Info:

    epg.data:

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400

  • Hallo Heiko,


    im git ist ein update.

    Ich gebe jetzt einen Malus, für den text-Match auf Originalsprache. Das ist fair, normalerweise zeigt das EPG den deutschen Namen.

    Damit sollte das Problem mit "tracks" gelöst sein.

    Auch "Crimetime: Lebenslänglich" sollte passen.

    "Der Letzte seiner Art" wird nach wie vor falsch identifiziert. Ich kann hier kein valides Pattern finden, um diesen Treffer gegen korrekte Treffer abzugrenzen.


    Du kannst in searchEventOrRec.c den Wert von "const float minMatchFinal" auf 0,54 erhöhen. Dann fliegt der auch raus, dafür werden aber auch weniger Sendungen korrekt erkannt.

    Du kannst auch einstellen, dass "ARD alpha HD" nicht gescraped wird. "ARD alpha HD" sendet doch relativ wenig, was in den externen Datenbanken ist.

    Code
    1. svdrpsend PLUG tvscraper delc "Crimetime: Lebenslänglich"
    2. svdrpsend PLUG tvscraper delc "tracks"
    3. svdrpsend PLUG tvscraper scep


    ~ Markus

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • Danke Markus.


    Das werde ich probieren.


    Gruß

    Heiko

    Gentoo Linux ~ VDR 2.6.1 ~ DD Octopus NET V2 S2 Max - SAT>IP ~ LENOVO ThinkServer TS200V ~ Intel(R) Core(TM) i5 CPU680@3.60GHz ~ 6GB RAM ~ NVIDIA T400