[tvscraper] Fehlende Scrapings

  • tvscraper arbeitet ja mit TheTVDB und TheMovieDB.

    Jetzt ich habe ich mal stichprobenartig einige "Leerstellen" geprüft:

    Maybrit Illner, Kulturzeit und Tagesthemen sind jeweils in themoviedb.org mit Bilddaten vertreten.

    Kann das mal jemand bei sich gegenprüfen, ob ich damit alleine bin?


    "Durchgescraped" bin ich praktisch seit gestern morgen, der VDR lief seitdem auch noch mehrfach.


    Unterscheidet der Scraper eigentlich zwischen Groß- und Kleinschreibung?

    Beim ÖRR ist man sich z.B. je nach Sender nicht einig bei der der Schreibweise (ZDF: maybrit illner, Phoenix: Maybrit Illner)

  • Für Serien nutzt tvscraper TheTVDB.

    Für Spielfilme nutzt tvscraper TheMovieDB.


    Groß- und Kleinschreibung wird nicht unterschieden.

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • OK, d.h. man sollte dann per override.conf diese Dinge als Movie klassifizieren, wenn man Bilder für Dinge haben möchte, die in TheTVDB keine Einträge haben, korrekt?


    Ich war der irrigen Meinung, erst wird TheTVDB durchgewurstelt und dann alles was dann noch nichts hat mit TheMovieDB.

  • > Ich war der irrigen Meinung, erst wird TheTVDB durchgewurstelt und dann alles was dann noch nichts hat mit TheMovieDB.

    Korrekt ist:

    Es wird immer in TheTVDB nach Serien gesucht, und in TheMovieDB nach Spielfilmen.


    Wenn das also in TheMovieDB ist, dort aber als Serie gekennzeichnet ist, findet das tvscraper nicht. Auch dann nicht, wenn Du mit override.conf das als Movie klassifizierst.

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • Wenn Du (fast) vollständige Bilder möchtest, kannst Du ein tvscraper Plugin installieren, das externes EPG holt.

    Details findest Du in README.md

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • > Wenn Du (fast) vollständige Bilder möchtest, kannst Du ein tvscraper Plugin installieren, das externes EPG holt.

    > Details findest Du in README.md


    Ich hatte noch ein paar mehr Stichproben gemacht und auffällig ist wirklich, wieviele deutsche Serien-Sendungen (mittlerweile) bei TheMovieDB eingepflegt sind, die bei TheTVDB gar keinen Eintrag oder nur einen ohne Bilder haben.

    Daher der Gedanke, dass, wenn man schon eh schon bei TheMovieDB scraped, da theoretisch ein best-of-both-worlds Ansatz möglich wäre und man auf ein ähnliches Ergebnis wie bei tvsp käme.

    Also, erst TheTVDB abgrasen und dann mit den ganzen noch unbekannten Einträgen über TheMovieDB drüber.

    Weiß aber natürlich nicht, ob da irgendwelche Limitierungen dagegensprechen und bin leider auch zu mangelintelligent um für sowas ggf. einen Patch beizusteuern.

  • Hi,


    Im git ist ein update.

    Vorgehen:

    1. Update installieren
    2. Cache löschen, z.B. 'svdrpsend PLUG tvscraper delc "Maybrit Illner"'
    3. VDR neu starten


    Anmerkung 1:

    Wenn der Cache nicht gelöscht wird, wird die Sendung nicht neu geprüft, und dann bleibt es beim alten Ergebnis.

    So lange, bis tvscraper den Cache als veraltet einstuft (also etwa 2 Wochen)


    Anmerkung 2:

    "Tagesthemen" gibt es auch in thetvdb, nur ohne Bilder :( .


    ~ Markus

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • EPG: ZDF-Morgenmagazin

    TheTVDB: ARD-Morgenmagazin


    Und wenn ich bei TheTVDB nach ZDF-Morgenmagazin suche, findet er nichts :(

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • tvscraper ist der Meinung, dass es da nicht genug Übereinstimmung zwischen dem EPG und der Serie gibt.

    Und dann fliegt der raus, weil es zu viele falsche Treffer gab. Siehe [tvscraper] Sammlung von Fehlern beim Scrapen von Aufnahmen und EPG


    Laut EPG ist die Sendung 3.30h lang. Laut thetvdb 90 min. Das gibt Malus.

    Andere Informationen wie Schauspieler, Episodennamen, Jahr, ... sind nicht verfügbar.

    Da hilft es dann auch nichts, dass der Text übereinstimmt. :( .


    Im debug log steht dann:


    Gesamtmatch von 0,429 ist zu wenig, wir bräuchten 0,5


    ~ Markus

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • Ah, OK, da ist mit Laufzeit nur eine einzelne Film-Auskoppelung mit 90min hinterlegt.

    Müsste man also bei thetvdb mal eine Season mit den korrekten 210min einpflegen.


    Weil "Sven Lorig" sowohl bei thetvdb als auch in der Beschreibung des EPG-Eintrags hinterlegt ist:

    sollten nicht mehr wie 0,0 für Actors kommen?

  • > sollten nicht mehr wie 0,0 für Actors kommen?

    Für welche? Bei mir im EPG steht keiner :(

    Siehe meinen Screenshot oben: "Susan Link und Sven Lorig". Haben aber auch nicht alle EPG-Einträge.


    Ich habe nicht nachgeschaut, wie der Scraper vorgeht um Schauspieler zu überprüfen. Ich nahm an, er nimmt sich die bei thetvdb hinterlegten Schauspielernamen und prüft die dann auf Treffer im EPG-Text.

  • Wo ich gerade auch noch am Rätseln bin: Winterwalzer

    Laut Log über den 0,5, Text + Schauspieler werden importiert, aber das Bild fehlt:

    Code
    Dec 10 18:15:07 vdr vdr: [4491] tvscraper: searchResultTvMovie::log, id: 1088483, title: "winterwalzer"
    Dec 10 18:15:07 vdr vdr: [4491] tvscraper: searchResultTvMovie::log, i: 0, match: 1,000000, weight 0,600000, desc: Text
    Dec 10 18:15:07 vdr vdr: [4491] tvscraper: searchResultTvMovie::log, i: 1, match: 1,000000, weight 0,200000, desc: Year
    Dec 10 18:15:07 vdr vdr: [4491] tvscraper: searchResultTvMovie::log, i: 2, match: 0,155477, weight 0,200000, desc: Vote, ..
    Dec 10 18:15:07 vdr vdr: [4491] tvscraper: searchResultTvMovie::log, i: 3, match: 1,000000, weight 0,200000, desc: Duration
    Dec 10 18:15:07 vdr vdr: [4491] tvscraper: searchResultTvMovie::log, i: 4, match: 0,000000, weight 0,300000, desc: Actors
    Dec 10 18:15:07 vdr vdr: [4491] tvscraper: searchResultTvMovie::log, i: 5, match: 0,000000, weight 0,100000, desc: Director Writer
    Dec 10 18:15:07 vdr vdr: [4491] tvscraper: searchResultTvMovie::log, i: 8, match: 1,000000, weight 0,000100, desc: PositionInExternalResult
    Dec 10 18:15:07 vdr vdr: [4491] tvscraper: searchResultTvMovie::log, getMatch(): 0,644457, delim:
  • Dann nochmal was anderes im Zusammenhang mit der Year-Gewichtung: Vika (DE 2022, SWR 11.12., dort fälschlicherweise als 2021 gelistet)

    Der Scraper entscheidet sich für Vika (IR 2016), durch ein identisches Year-Rating (-4 besser als +1?) und ignoriert scheinbar die Duration: beim IR-Film unbekannt, trotzdem 1,0, während die DE-Variante fast perfekt ist (18 vs. 20min) und nur auf 0,87 kommt.

  • Zu Winterwalzer:


    svdrpsend PLUG tvscraper delm 1088483

    svdrpsend PLUG tvscraper scep


    Nach dem epg scan ("scep") ist das Bild da.


    Ursache:

    Zu dem Zeitpunkt, als tvscraperd den Film Winterwalzer aus der externen Datenbank heruntergeladen hat, war das Bild in der externen Datenbank noch nicht verfügbar.


    Mit svdrpsend PLUG tvscraper delm 1088483 wird die lokale Kopie von dem Film gelöscht.

    svdrpsend PLUG tvscraper scep findet die die Zuordnung Winterwalze->1088483 im Cache, stellt fest, dass 1088483 nicht als lokale Kopie da ist und holt 1088483 erneut von der externen Datenbank. Diesmal mit Bild :) .


    ~ Markus

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

  • > Zu Winterwalzer:


    Ah, OK - gelernt, dass es quasi zwei verschieden mächtige del's gibt. :)


    Die Idee mit TheTVDB_SeriesID bzw. TheMovieDB_SeriesID in der override.conf ist übrigens super.

    Ist erwünscht, dass man da Einträge sammelt und dir das zu pullrequestet, damit alle davon profitieren?

    Oder willst du es vorläufig bei ein paar Beispielen belassen?

  • > Ist erwünscht, dass man da Einträge sammelt und dir das zu pullrequestet, damit alle davon profitieren?

    Ja.

    Oder auch einfach hier posten.

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

    Edited once, last by MarkusE ().

  • Siehe meinen Screenshot oben: "Susan Link und Sven Lorig". Haben aber auch nicht alle EPG-Einträge.

    Na ja, wenn der 1. EPG Eintrag, der geprüft wird, keine Schauspieler hat, dann findet er keine.

    Beim 2. Eintrag nimmt er den Cache, und sucht nicht erneut nach Schauspielern.

    Client1: ASUS P5QC, Dual Core 3G, Cine S2, Ext. Board von TBE, Xubuntu 20.04, VDR 2.6x

    Client2: RPI3

    Server: RPI4, Sundtek SkyTV Dual 2x

Participate now!

Don’t have an account yet? Register yourself now and be a part of our community!