HTML parsen

  • Zitat

    Original von Joe_D
    Mit was kann ich unter C/C++ nicht 100% sauberes HTML parsen?


    Geht XSLT/libXSLT? Oder eher libxml2? Gibt es irgendwo ein Tutorial/Beispiele oder genügt einfach RTFM?


    Mit libxml2 parst Du es, mit libXSLT konvertierst du es mit Hilfe eines XSLT-Stylesheets in was anderes,
    wie z. B. beim tvm2vdr-plugin.
    libxslt tutorial
    libxml2 Beispiele


    Gerald


    HP Proliant MicroServer Gen8, Xeon E3-1230, 12 GB RAM, 3xWD red 2TB im RAID 5, 2xSundtek MediaTV Home DVB-C/T, L4M TWIN-C/T, Ubuntu Server 14.04.1, Plex Media Server
    Samsung UE55H6470

  • Danke für die Antworten. Mir geht es darum aus einer stinknormalen Webseite die (scheinbar natürlich) nicht 100% sauberes HTML enthält Informationen rauszuziehen.


    Ich habe zwar schon mit xsltproc rumgespielt aber der will das Eingabefile nicht annehmen, zuviele Fehler, selbst mit gesetztem --html


    Ich denke es ist einfacher an Informationen der HTML-Datei über die libxml2 heranzukommen, da diese Lib scheinbar hervorragend mit kaputten HTML umgehen kann.


    Gruß


    Joe_D

  • darf man fragen, auf was für Informationen sich das ganze bezieht?


    Eventuell wäre es auch einfacher, wenn du dich nicht auf die Korrektheit des Quelltextes verlassen musst und stattdessen lediglich nach Mustern in der Webseite suchst.


    Medion Digitainer; AsRock B75 Pro3-M, Celeron G540; Kingston Value 4GB
    Samsung SpinPoint 250GB 2,5"; Samsung WriteMaster DVD-Brenner;
    TT-S2-6400, 2x TT-S2-1600, Ubuntu 12.04 mit YaVDR-Paketen. VDR 1.7.27, UPnP/DLNA-Plugin

  • Hi,


    also ich finde den Tipp von herrlado gar nicht schlecht. Ich mache das in PHP auch, wenn ich automatisiert Informationen aus einer Webseite auslesen will.


    Mit Tidy den Quellcode in XHTML umwandeln und dann mit einem beliebigen XML-Parser oder XPath verarbeiten.



    MfG
    Marco

    Siemens Scenic, DVB-S Rev. 1.6, Airstar 2, 1 TB HD, Allnet ALL0281, AV-Board 1.3, Debian Squeeze

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!