Mit was kann ich unter C/C++ nicht 100% sauberes HTML parsen?
Geht XSLT/libXSLT? Oder eher libxml2? Gibt es irgendwo ein Tutorial/Beispiele oder genügt einfach RTFM?
Gruß
Joe_D
Mit was kann ich unter C/C++ nicht 100% sauberes HTML parsen?
Geht XSLT/libXSLT? Oder eher libxml2? Gibt es irgendwo ein Tutorial/Beispiele oder genügt einfach RTFM?
Gruß
Joe_D
ZitatOriginal von Joe_D
Mit was kann ich unter C/C++ nicht 100% sauberes HTML parsen?
Geht XSLT/libXSLT? Oder eher libxml2? Gibt es irgendwo ein Tutorial/Beispiele oder genügt einfach RTFM?
Mit libxml2 parst Du es, mit libXSLT konvertierst du es mit Hilfe eines XSLT-Stylesheets in was anderes,
wie z. B. beim tvm2vdr-plugin.
libxslt tutorial
libxml2 Beispiele
Gerald
Danke für die Antworten. Mir geht es darum aus einer stinknormalen Webseite die (scheinbar natürlich) nicht 100% sauberes HTML enthält Informationen rauszuziehen.
Ich habe zwar schon mit xsltproc rumgespielt aber der will das Eingabefile nicht annehmen, zuviele Fehler, selbst mit gesetztem --html
Ich denke es ist einfacher an Informationen der HTML-Datei über die libxml2 heranzukommen, da diese Lib scheinbar hervorragend mit kaputten HTML umgehen kann.
Gruß
Joe_D
darf man fragen, auf was für Informationen sich das ganze bezieht?
Eventuell wäre es auch einfacher, wenn du dich nicht auf die Korrektheit des Quelltextes verlassen musst und stattdessen lediglich nach Mustern in der Webseite suchst.
Hi,
also ich finde den Tipp von herrlado gar nicht schlecht. Ich mache das in PHP auch, wenn ich automatisiert Informationen aus einer Webseite auslesen will.
Mit Tidy den Quellcode in XHTML umwandeln und dann mit einem beliebigen XML-Parser oder XPath verarbeiten.
MfG
Marco
Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!