ü-Fehler in channels.conf aus w_scan: UTF-8 ist %C3%BC statt %C3%BE

TEN · 4. Januar 2016

Wegen einer Zugangsumstellung auf M-net musste ich für diverse Geräte im Haus neue Sendersuchläufe durchführen.

Dabei fallen Einträge wie "Energy Nþrnberg" in channels.w_scan.2016-01-04.conf z.B. wie unten hervorge- und behoben unter Ubuntu 14.04 auf:

Zitat

w_scan -ft -c DE 2>channels.w_scan_T.`date +%Y-%m-%d`.log >channels.w_scan_T.`date +%Y-%m-%d`.conf
echo ":Free DVB-T" >channels.conf
awk '{ if ($9 == "0" && $6 != "0" ) {print "T " $0} }' FS=':' OFS=':' channels.w_scan_T.`date +%Y-%m-%d`.conf | sort -t ":" -k 2 | grep --invert-match $Internet$ >>channels.conf
# iconv -f ISO_8859-1 -t UTF-8
echo ":Free DVB-C" >>channels.conf
w_scan -fc -c DE 2>channels.w_scan.`date +%Y-%m-%d`.log >channels.w_scan.`date +%Y-%m-%d`.conf
awk '{ if ($9 == "0" && $6 != "0" ) {$9 = "1"; print} }' FS=':' OFS=':' channels.w_scan.`date +%Y-%m-%d`.conf | sort -t ":" -k 2 >>channels.conf
echo ":Free Radio" >>channels.conf
awk '{ if ($9 == "0" && $6 == "0" ) {$9 = "1"; print} }' FS=':' OFS=':' channels.w_scan.`date +%Y-%m-%d`.conf | sort -t ":" -k 2 | sed 's/\xC3\xBE/\xC3\xBC/g' >>channels.conf

Alles anzeigen

Fürs Wiki habe ich die Liste (auch entsprechend http://www.vdr-portal.de/board…3%A4t-qam-256#post1103530) angepasst.
Oben zugleich ein aktuelles Beispiel, automagisch DVB-T&C unter einen Hut zu bringen, Kryptoeinträge loszuwerden und die "channel groups" (Rechts/Links-Umschaltung) einfach nutzbar zu machen.

Beispielsweise ein Standalone-DVB-C-Tuner von Wisi zeigt "Nürnberg" aber richtig an.

Kommt die falsche Zeichenkodierung vom (informierten) Anbieter oder doch aus einer lokalen Anwendung oder Bibliothek?

wirbel · 4. Januar 2016

Kann man so aus deinen Infos nicht so ohne weiteres sagen, wer nun der Schuldige ist.

Vom Prinzip her bekommt man nicht 'character' gesendet, sondern man bekommt bytes, welche man dann als Character bzw. Zeichen interpretieren muss.
Solange die Bytes kleiner oder gleich 0x7F (7bit character codes) sind, verhalten sich ISO8859-xx, ASCII und UTF-8 gleich,
oberhalb muss man wissen in welchem Format gesendet wird.

Solange man also weiß, welche input Kodierung gesendet wurde die zu den gesendeten bytes gehört, kann man dann in fast beliebige andere
Kodierungen auf dem lokalen System umwandeln, z.B. in UFT-8. Solange bei DVB keine Kodierung nicht angegeben wurde, gilt ISO-6937. Allerdings
kann mit definierten Steuerzeichen innerhalb eines Textes in den DVB SI Daten beliebig oft hin und her geschaltet werden.

w_scan selbst benutzt iconv() aus der glibc zum Konvertieren in die angegebene Zielkodierung. Stimmt also entweder die input Kodierung des
Anbieters nicht oder die Zielkodierung des lokalen Systems nicht, kommt für Zeichen oberhalb von 0x7F Unsinn heraus. Die gerade verwendete
input Kodierung liest w_scan laut der Spec aus den versteckten Bytes im Text. Die Zielkodierung wird aus den Umgebungsvariablen deines
Systems erraten(!) und kann von dir überschrieben werden.

TEN · 4. Januar 2016

Welche Tables vom DVB-C-Provider kommen, müsste ich Dir ja mit dvbstream aus Paket dvb-tools dumpen können:
Welcher Abruf genau würde benötigt? (Problematisch scheint nur QAM_256 f = 482000 kHz S6900C34 zu sein.)

LANG=en_US.UTF-8 habe ich schon seit einigen Ubuntu-Versionen, und mich natürlich vergewissert, daß der Fehler trotz ergänztem Parameter in der Ausgabe landet:
w_scan -fc -c DE -C UTF-8 >channels.UTF-8.conf
Diese und v.a. auch das Log dazu (um Wiederholungszeilen gekürzt) anbei.

Ein gültiges ü bekomme ich ja bei zahlreichen Sendern, grundsätzlich scheint also UTF-8 erzeugt zu werden (als %C3%BC, wohingegen %C3%BE kein Umlaut wäre).

wirbel · 5. Januar 2016

Das Ausgeben der Rohdaten kann w_scan selbst, einfach die komplette Ausgabe von w_scan (stdout + stderr) in eine Datei schreiben und w_scan mit '-v -v -v' starten.

Die Kodierung ist hier erklärt:
http://www.etsi.org/deliver/et…_40/en_300468v011001o.pdf , Seite 98 bis 110

TEN · 5. Januar 2016

Zitat von wirbel

Das Ausgeben der Rohdaten kann w_scan selbst, einfach die komplette Ausgabe von w_scan (stdout + stderr) in eine Datei schreiben und w_scan mit '-v -v -v' starten.

Anbei gzipped: w_scan -fc -c DE -C UTF-8 2>&1 | cat >w_scan-v-v-v.UTF-8.log.txt

TEN · 5. Januar 2016

ü ist in den SDTs jeweils als %FC kodiert (ISO-Latin 1/5/9)
Der Unterschied scheint mir zu sein, daß es bei München (z.B. BetaDigital) aus ISO-8859-9, bei Nürnberg und Würzburg (M-net) aber aus ISO_6937-2 nach UTF-8 konvertiert wird:

Code

===================== parse_service_descriptor =========================
        len = 26
        0x00: 01 0C 05 42 65 74 61 44 69 67 69 74 61 6C 0B 05 :    BetaDigital  
        0x10: 6D FC 6E 63 68 65 6E 2E 74 76                   : m nchen.tv
        ========================================================================
char_coding:205:                char_coding: converting 'BetaDigital' from 'ISO-8859-9' to 'UTF-8//IGNORE'
char_coding:205:                char_coding: converting 'm<FC>nchen.tv' from 'ISO-8859-9' to 'UTF-8//IGNORE'
        service = münchen.tv (BetaDigital)
...
       ===================== parse_service_descriptor =========================
        len = 27
        0x00: 02 05 4D 2D 6E 65 74 13 52 61 64 69 6F 20 47 6F :   M-net Radio Go
        0x10: 6E 67 20 4E FC 72 6E 62 65 72 67                : ng N rnberg
        ========================================================================
char_coding:205:                char_coding: converting 'M-net' from 'ISO_6937-2' to
 'UTF-8//IGNORE'
char_coding:205:                char_coding: converting 'Radio Gong N<FC>rnberg' fro
m 'ISO_6937-2' to 'UTF-8//IGNORE'
        service = Radio Gong Nþrnberg (M-net)
        ===================== parse_service_descriptor =========================
        len = 32
        0x00: 02 05 4D 2D 6E 65 74 18 52 61 64 69 6F 20 43 68 :   M-net Radio Ch
        0x10: 61 72 69 76 61 72 69 20 4E FC 72 6E 62 65 72 67 : arivari N rnberg
        ========================================================================
char_coding:205:                char_coding: converting 'M-net' from 'ISO_6937-2' to
 'UTF-8//IGNORE'
char_coding:205:                char_coding: converting 'Radio Charivari N<FC>rnberg' from 'ISO_6937-2' to 'UTF-8//IGNORE'
        service = Radio Charivari Nþrnberg (M-net)
        ===================== parse_service_descriptor =========================
        len = 23
        0x00: 02 05 4D 2D 6E 65 74 0F 45 6E 65 72 67 79 20 4E :   M-net Energy N
        0x10: FC 72 6E 62 65 72 67                            :  rnberg
        ========================================================================
char_coding:205:                char_coding: converting 'M-net' from 'ISO_6937-2' to 'UTF-8//IGNORE'
char_coding:205:                char_coding: converting 'Energy N<FC>rnberg' from 'ISO_6937-2' to 'UTF-8//IGNORE'
        service = Energy Nþrnberg (M-net)
...
        ===================== parse_service_descriptor =========================
        len = 32
        0x00: 02 05 4D 2D 6E 65 74 18 52 61 64 69 6F 20 43 68 :   M-net Radio Ch
        0x10: 61 72 69 76 61 72 69 20 57 FC 72 7A 62 75 72 67 : arivari W rzburg
        ========================================================================
char_coding:205:                char_coding: converting 'M-net' from 'ISO_6937-2' to 'UTF-8//IGNORE'
char_coding:205:                char_coding: converting 'Radio Charivari W<FC>rzburg' from 'ISO_6937-2' to 'UTF-8//IGNORE'
        service = Radio Charivari Wþrzburg (M-net)
        ===================== parse_service_descriptor =========================
        len = 27
        0x00: 02 05 4D 2D 6E 65 74 13 52 61 64 69 6F 20 47 6F :   M-net Radio Go
        0x10: 6E 67 20 57 FC 72 7A 62 75 72 67                : ng W rzburg
        ========================================================================
char_coding:205:                char_coding: converting 'M-net' from 'ISO_6937-2' to 'UTF-8//IGNORE'
char_coding:205:                char_coding: converting 'Radio Gong W<FC>rzburg' from 'ISO_6937-2' to 'UTF-8//IGNORE'
        service = Radio Gong Wþrzburg (M-net)

Alles anzeigen

Ist die Frage, ob die SDT fehlerhaft ist und z.B. vom WISI nur durch Annahme von ISO-8859-? "versehentlich" berichtigt wird, oder ob w_scan sie anders parsen sollte.

wirbel · 5. Januar 2016

Code

<snip>
	0x2F0: 18 52 61 64 69 6F 20 43 68 61 72 69 76 61 72 69 :  Radio Charivari
	0x300: 20 4E FC 72 6E 62 65 72 67 28 44 FC 80 19 48 17 :  N rnberg(D   H 
	0x310: 02 05 4D 2D 6E 65 74 0F 45 6E 65 72 67 79 20 4E :   M-net Energy N
<snap>


service_name_length = 0x18 (24)
for (i=0; i<service_name_length; i++) { Char }




 52 61 64 69 6F 20 43 68 61 72 69 76 61 72 69 20 4E FC 72 6E 62 65 72 67
 R  a  d  i  o     C  h  a  r  i  v  a  r  i     N  þ  r  n  b  e  r  g

Alles anzeigen

"For the European languages a set of five character tables are available.
If no character selection information is given in a text item, then the
default character coding table (table 00 - Latin alphabet) of figure
A.1 is assumed."

Bytes mit 0x01 bis 0x1F zur Selektion einer andren character table gibt es nicht,
also gilt die default character coding table.

Nach figure A.1 table 00, Seite 100 ist 0xFC -> 'þ'

Alles korrekt.

TEN · 5. Januar 2016

Zitat von wirbel
Code
<snip>
	0x2F0: 18 52 61 64 69 6F 20 43 68 61 72 69 76 61 72 69 :  Radio Charivari
	0x300: 20 4E FC 72 6E 62 65 72 67 28 44 FC 80 19 48 17 :  N rnberg(D   H 
	0x310: 02 05 4D 2D 6E 65 74 0F 45 6E 65 72 67 79 20 4E :   M-net Energy N
<snap>


service_name_length = 0x18 (24)
for (i=0; i<service_name_length; i++) { Char }




 52 61 64 69 6F 20 43 68 61 72 69 76 61 72 69 20 4E FC 72 6E 62 65 72 67
 R  a  d  i  o     C  h  a  r  i  v  a  r  i     N  þ  r  n  b  e  r  g
Alles anzeigen
"For the European languages a set of five character tables are available.
If no character selection information is given in a text item, then the
default character coding table (table 00 - Latin alphabet) of figure
A.1 is assumed."

Bytes mit 0x01 bis 0x1F zur Selektion einer andren character table gibt es nicht,
also gilt die default character coding table.

Nach figure A.1 table 00, Seite 100 ist 0xFC -> 'þ'

Alles korrekt.
Alles anzeigen

Nur eben nicht der Eintrag des Providers, der den richtigen Zeichensatz mitgeben müsste (wenn das nicht Nþrnberg & Wþrzburg an der Wolga sind :]) ?
Danke nochmal, daß Du es Dir so schnell angesehen hast! Hoffe die Informationen waren so wie benötigt aufbereitet.

wirbel · 5. Januar 2016

PS: im Falle von München wird mit dem character selction byte 0x05 -> Figure A.6: Character code table 05 - Latin alphabet number 5 selektiert.
In dem Falle ist 0xFC dann 'ü', siehe Seite 105.

Also kein w_scan Problem.

ü-Fehler in channels.conf aus w_scan: UTF-8 ist %C3%BC statt %C3%BE

Jetzt mitmachen!

Teilen

Benutzer online in diesem Thema