wget und unbekanntes charset ?!

  • hallo,

    habe ein problem mit wget, hole per wget relevante daten aus einer website, die dann in einem txtfile gespeichert werden. Das funktioniert auch wunderbar. Allerdings nicht wenn die webseite im header kein charset angegeben hat. Dann werden die daten zwar auch geholt und im textfile gespeichert, allerdings als "data" anstatt utf8, iso oder sonst ein charset.

    darauf gestoßen bin ich als ich "file txtfile" in der console eingegeben hab, wenn in der htmlseite ein charset angegeben ist, hat auch das txtfile dieses charset, ansonsten halt data ;(

    wenn ich nun versuche das txtfile in ein char array einzulesen dann bricht das programm mit "speicherzugriffsfehler" bei sonderzeichen ab.

    gibt es eine möglichkeit wget zu sagen das es immer die daten in utf8 speichern soll ?
    oder das textfile, was fälschlicherweise als "data" gespeichert wurde in utf8 zu konvertieren ?
    oder beim einlesen des txtfiles in ein char array die sonderzeichen einfach ignoriert ?

    hab schon stundenlang google durchsucht, und das wget manual durchgearbeitet, konnte aber keine lösung finden.

    Hat da jemand nen tip ?

    MfG

    bex

    server -> Asus p8h67-i -Intel 2100T - Cine CT v6

    client 1 -> Asus p5n7a-vm -Intel E5200 - Technisat Cablestar HD 2

    client 2+3 -> Raspberry Pi - Openelec

  • hast du schon wChar probiert? Ich hab bei mir auch das Problem dass ich mit char nicht weit komme, wenn ich XML-Daten speichern möchte.


    Medion Digitainer; AsRock B75 Pro3-M, Celeron G540; Kingston Value 4GB
    Samsung SpinPoint 250GB 2,5"; Samsung WriteMaster DVD-Brenner;
    TT-S2-6400, 2x TT-S2-1600, Ubuntu 12.04 mit YaVDR-Paketen. VDR 1.7.27, UPnP/DLNA-Plugin

  • hy,

    erstmal danke für die antworten, wchar werd ich mir mal näher anschauen, allerdings glaub ich das es probleme mit der gtk ui geben wird.

    an iconv hab ich auch schon gedacht, problem ist nur das iconv das ein und ausgabe charset wissen will. nur was ist das eingangsformat ? "data" welches ja "file" anzeigt gibt es bei iconv nicht ;(

    MfG

    bex

    server -> Asus p8h67-i -Intel 2100T - Cine CT v6

    client 1 -> Asus p5n7a-vm -Intel E5200 - Technisat Cablestar HD 2

    client 2+3 -> Raspberry Pi - Openelec

  • @ skan!

    danke für den tip, geht aber leider nicht, iconv meckert zwar nicht, wandelt aber auch nicht. "file" sagt immernoch die txtdatei sei "data".

    Muss wohl drauf hoffen das der websitenersteller mal das charset angibt, oder das wget ne funktion eingebaut bekommt die es erlaubt ein charset zu bestimmen.

    MfG

    bex

    server -> Asus p8h67-i -Intel 2100T - Cine CT v6

    client 1 -> Asus p5n7a-vm -Intel E5200 - Technisat Cablestar HD 2

    client 2+3 -> Raspberry Pi - Openelec

Participate now!

Don’t have an account yet? Register yourself now and be a part of our community!