HTML parsen

Joe_D · 25. Februar 2009

Mit was kann ich unter C/C++ nicht 100% sauberes HTML parsen?

Geht XSLT/libXSLT? Oder eher libxml2? Gibt es irgendwo ein Tutorial/Beispiele oder genügt einfach RTFM?

Gruß

Joe_D

herrlado · 25. Februar 2009

htmltidy?

http://www.w3.org/People/Raggett/tidy/

gda · 25. Februar 2009

Zitat

Original von Joe_D
Mit was kann ich unter C/C++ nicht 100% sauberes HTML parsen?

Geht XSLT/libXSLT? Oder eher libxml2? Gibt es irgendwo ein Tutorial/Beispiele oder genügt einfach RTFM?

Mit libxml2 parst Du es, mit libXSLT konvertierst du es mit Hilfe eines XSLT-Stylesheets in was anderes,
wie z. B. beim tvm2vdr-plugin.
libxslt tutorial
libxml2 Beispiele

Gerald

Joe_D · 25. Februar 2009

Danke für die Antworten. Mir geht es darum aus einer stinknormalen Webseite die (scheinbar natürlich) nicht 100% sauberes HTML enthält Informationen rauszuziehen.

Ich habe zwar schon mit xsltproc rumgespielt aber der will das Eingabefile nicht annehmen, zuviele Fehler, selbst mit gesetztem --html

Ich denke es ist einfacher an Informationen der HTML-Datei über die libxml2 heranzukommen, da diese Lib scheinbar hervorragend mit kaputten HTML umgehen kann.

Gruß

Joe_D

methodus · 25. Februar 2009

darf man fragen, auf was für Informationen sich das ganze bezieht?

Eventuell wäre es auch einfacher, wenn du dich nicht auf die Korrektheit des Quelltextes verlassen musst und stattdessen lediglich nach Mustern in der Webseite suchst.

killernase · 25. Februar 2009

Hi,

also ich finde den Tipp von herrlado gar nicht schlecht. Ich mache das in PHP auch, wenn ich automatisiert Informationen aus einer Webseite auslesen will.

Mit Tidy den Quellcode in XHTML umwandeln und dann mit einem beliebigen XML-Parser oder XPath verarbeiten.

MfG
Marco

HTML parsen

Jetzt mitmachen!

Teilen

Benutzer online in diesem Thema