Zeichensalat
Mit Zeichensalat wird der Zustand falsch dargestellter Zeichen bezeichnet, der anstelle der gewünschten Schriftzeichen vor allem im Internet auftritt. Während der Frühzeit des Internets trat dieser Zustand bei fast allen Sprachen auf, die über reines ASCII hinausgehende Zeichensätze verwenden. Das sind nahezu alle Sprachen außer Englisch (sofern fremdsprachliche Diakritika wie in naïve, café oder résumé konsequent weggelassen werden). Im Deutschen waren beispielsweise die Umlaute und das ß häufig betroffen. Mit der Einführung von Unicode wurde zwar 1991 technisch eine Grundlage geschaffen, um das Problem auf lange Sicht zu beheben, dennoch bereiten Datenaustauschverfahren, die keine einheitliche Zeichencodierung vorschreiben, selbst im Jahr 2020 noch derartige Probleme.
Im Japanischen wird das Problem als Mojibake (japanisch 文字化け, „Buchstabenverwandlung“) bezeichnet, im Russischen als krakosjábry (кракозябры) und im Chinesischen als luànmǎ (亂碼 / 乱码, „wirre Kodierung“).
Beispiele
Ausgangskodierung | Webbrowser-Einstellung | Anzeige im Webbrowser |
---|---|---|
UTF-8 | UTF-8 | Falsches Üben von Xylophonmusik quält jeden größeren Zwerg. |
ISO 8859-1 | Falsches Üben von Xylophonmusik quält jeden größeren Zwerg. | |
ISO 8859-1 | ISO 8859-1 | Falsches Üben von Xylophonmusik quält jeden größeren Zwerg. |
UTF-8 | Falsches �ben von Xylophonmusik qu�lt jeden gr��eren Zwerg.[1] | |
Windows-1251 | Windows-1251 | Широкая электрификация южных губерний даст мощный толчок подъёму сельского хозяйства. |
ISO 8859-1 | Øèðîêàÿ ýëåêòðèôèêàöèÿ þæíûõ ãóáåðíèé äàñò ìîùíûé òîë÷îê ïîäú¸ìó ñåëüñêîãî õîçÿéñòâà. | |
KOI8-R | ьХПНЙЮЪ ЩКЕЙРПХТХЙЮЖХЪ ЧФМШУ ЦСАЕПМХИ ДЮЯР ЛНЫМШИ РНКВНЙ ОНДЗ╦ЛС ЯЕКЭЯЙНЦН УНГЪИЯРБЮ. | |
ISO 8859-5 | иш№юърџ §ыхъђ№шєшърішџ ўцэћѕ уѓсх№эшщ фрёђ ьюљэћщ ђюыїюъ яюфњИьѓ ёхыќёъюую ѕючџщёђтр. | |
Codepage 866 | ╪шЁюър ¤ыхъЄЁшЇшърЎш ■цэ√ї уєсхЁэшщ фрёЄ ью∙э√щ Єюыўюъ яюф·╕ьє ёхы№ёъюую їюч щёЄтр. | |
Shift JIS | Shift JIS | 文字化け(もじばけ)とは、コンピュータで文字を表示する際に、正しく表示されない現象のこと。 |
Macintosh Roman | ï∂éöâªÇØÅiLJÇ∂ÇŒÇØÅjÇ∆ÇÕÅAÉRÉìÉsÉÖÅ[É^Ç≈ï∂éöÇï\é¶Ç∑ÇÈç€Ç…ÅAê≥ǵÇ≠ï\é¶Ç≥ÇÍǻǢåªè€ÇÃDZÇ∆ÅB | |
KOI8 oder KOI7 (russischer Modus) | KOI8 oder KOI7 (russischer Modus) | Русский Текст |
ASCII oder KOI7 (lateinischer Modus) | rUSSKIJ tEKST |
Die KOI-Kodierungen bieten eine Besonderheit, die das letzte Beispiel zeigt: Werden sie fälschlicherweise als ASCII interpretiert (und dafür im Falle von KOI8 das höchstwertige Bit ignoriert), entsteht eine grobe lateinische Transliteration mit vertauschten Groß- und Kleinbuchstaben. Da das kyrillische Alphabet mehr Buchstaben als das lateinische hat, werden einige kyrillische Buchstaben zu Satzzeichen.
Codierte Daten
Zeichensalat kann auch absichtlich verwendet werden, um beliebige Daten an Stellen zu speichern oder zu übertragen, an denen nur bestimmte Zeichen möglich sind, zum Beispiel beim Verwendungszweck einer Banküberweisung oder in Internetadressen.
In Internetadressen wird zu diesem Zweck häufig das Base64-Verfahren eingesetzt. Es erzeugt aus beliebigen Daten einen Text, der nur aus den Buchstaben A–Z, a–z, den Ziffern 0–9 und den Sonderzeichen +, / und = besteht. Mit Base64 codierte Daten sehen so aus:
- RGllc2VyIFRleHQgaXN0IG5pY2h0IHZlcnNjaGzDvHNzZWx0Lg==
Auf den ersten Blick ist nicht zu erkennen, was dieser Zeichensalat an Daten enthält. Wenn man jedoch die Base64-Codierung rückwärts anwendet, entsteht dieser Text:
- Dieser Text ist nicht verschlüsselt.
Einige Websites verwenden dieses Codierungsverfahren, um die eigentlichen Daten nicht offensichtlich in der URL preiszugeben.
Buchstabensalat
Zeichensalat/Mojibake kann als Spezialfall von Buchstabensalat betrachtet werden. Darunter sind allgemein schwer oder nicht zu entziffernde Zeichenfolgen zu verstehen, die auch aus anderen Gründen außer einer fehlerhaften Kombination verschiedener Zeichenkodierungen entstanden sein können.
Einzelnachweise und Anmerkungen
- ↑ Hier wird zumindest das von Unicode dafür vorgesehene Ersetzungszeichen verwendet.
Weblinks
- Tomohiro Kubota: What is Mojibake? (Memento vom 24. Mai 2008 im Internet Archive) mit Beispielen aus den Jahren 2000 und 2003 (englisch)
- Paul Hastings: Do You Want Coffee with That Mojibake? Character encodings and CFMX. Coldfusion Developer's Journal, 13. April 2004 (englisch)
- Michael Rollins: Avoiding the 'mojibake' bugaboo. The Japan Times, 27. Februar 2003 (englisch)
- John de Hoog: Avoiding Mojibake. (englisch)
Auf dieser Seite verwendete Medien
Autor/Urheber:
Screenshot von PantheraLeo1359531
Software vonReactOS Contributors, Lizenz: GPLBeispiel für Zeichensalat aufgrund falscher Buchstabencodierung.