Zeichensalat

Beispiel der fehlerhaften Darstellung der Umlaute

Mit Zeichensalat wird der Zustand falsch dargestellter Zeichen bezeichnet, der anstelle der gewünschten Schriftzeichen vor allem im Internet auftritt. Während der Frühzeit des Internets trat dieser Zustand bei fast allen Sprachen auf, die über reines ASCII hinausgehende Zeichensätze verwenden. Das sind nahezu alle Sprachen außer Englisch (sofern fremdsprachliche Diakritika wie in naïve, café oder résumé konsequent weggelassen werden). Im Deutschen waren beispielsweise die Umlaute und das ß häufig betroffen. Mit der Einführung von Unicode wurde zwar 1991 technisch eine Grundlage geschaffen, um das Problem auf lange Sicht zu beheben, dennoch bereiten Datenaustauschverfahren, die keine einheitliche Zeichencodierung vorschreiben, selbst im Jahr 2020 noch derartige Probleme.

Im Japanischen wird das Problem als Mojibake (japanisch 文字化け, „Buchstabenverwandlung“) bezeichnet, im Russischen als krakosjábry (кракозябры) und im Chinesischen als luànmǎ (亂碼 / 乱码, „wirre Kodierung“).

Beispiele

AusgangskodierungWebbrowser-EinstellungAnzeige im Webbrowser
UTF-8UTF-8Falsches Üben von Xylophonmusik quält jeden größeren Zwerg.
ISO 8859-1Falsches Üben von Xylophonmusik quält jeden größeren Zwerg.
ISO 8859-1ISO 8859-1Falsches Üben von Xylophonmusik quält jeden größeren Zwerg.
UTF-8Falsches �ben von Xylophonmusik qu�lt jeden gr��eren Zwerg.[1]
Windows-1251Windows-1251Широкая электрификация южных губерний даст мощный толчок подъёму сельского хозяйства.
ISO 8859-1Øèðîêàÿ ýëåêòðèôèêàöèÿ þæíûõ ãóáåðíèé äàñò ìîùíûé òîë÷îê ïîäú¸ìó ñåëüñêîãî õîçÿéñòâà.
KOI8-RьХПНЙЮЪ ЩКЕЙРПХТХЙЮЖХЪ ЧФМШУ ЦСАЕПМХИ ДЮЯР ЛНЫМШИ РНКВНЙ ОНДЗ╦ЛС ЯЕКЭЯЙНЦН УНГЪИЯРБЮ.
ISO 8859-5иш№юърџ §ыхъђ№шєшърішџ ўцэћѕ уѓсх№эшщ фрёђ ьюљэћщ ђюыїюъ яюфњИьѓ ёхыќёъюую ѕючџщёђтр.
Codepage 866╪шЁюър ¤ыхъЄЁшЇшърЎш ■цэ√ї уєсхЁэшщ фрёЄ ью∙э√щ Єюыўюъ яюф·╕ьє ёхы№ёъюую їюч щёЄтр.
Shift JISShift JIS文字化け(もじばけ)とは、コンピュータで文字を表示する際に、正しく表示されない現象のこと。
Macintosh Romanï∂éöâªÇØÅiLJÇ∂ÇŒÇØÅjÇ∆ÇÕÅAÉRÉìÉsÉÖÅ[É^Ç≈ï∂éöÇï\é¶Ç∑ÇÈç€Ç…ÅAê≥ǵÇ≠ï\é¶Ç≥ÇÍǻǢåªè€ÇÃDZÇ∆ÅB
KOI8 oder KOI7 (russischer Modus)KOI8 oder KOI7 (russischer Modus)Русский Текст
ASCII oder KOI7 (lateinischer Modus)rUSSKIJ tEKST

Die KOI-Kodierungen bieten eine Besonderheit, die das letzte Beispiel zeigt: Werden sie fälschlicherweise als ASCII interpretiert (und dafür im Falle von KOI8 das höchstwertige Bit ignoriert), entsteht eine grobe lateinische Transliteration mit vertauschten Groß- und Kleinbuchstaben. Da das kyrillische Alphabet mehr Buchstaben als das lateinische hat, werden einige kyrillische Buchstaben zu Satzzeichen.

Codierte Daten

Zeichensalat kann auch absichtlich verwendet werden, um beliebige Daten an Stellen zu speichern oder zu übertragen, an denen nur bestimmte Zeichen möglich sind, zum Beispiel beim Verwendungszweck einer Banküberweisung oder in Internetadressen.

In Internetadressen wird zu diesem Zweck häufig das Base64-Verfahren eingesetzt. Es erzeugt aus beliebigen Daten einen Text, der nur aus den Buchstaben A–Z, a–z, den Ziffern 0–9 und den Sonderzeichen +, / und = besteht. Mit Base64 codierte Daten sehen so aus:

RGllc2VyIFRleHQgaXN0IG5pY2h0IHZlcnNjaGzDvHNzZWx0Lg==

Auf den ersten Blick ist nicht zu erkennen, was dieser Zeichensalat an Daten enthält. Wenn man jedoch die Base64-Codierung rückwärts anwendet, entsteht dieser Text:

Dieser Text ist nicht verschlüsselt.

Einige Websites verwenden dieses Codierungsverfahren, um die eigentlichen Daten nicht offensichtlich in der URL preiszugeben.

Buchstabensalat

Zeichensalat/Mojibake kann als Spezialfall von Buchstabensalat betrachtet werden. Darunter sind allgemein schwer oder nicht zu entziffernde Zeichenfolgen zu verstehen, die auch aus anderen Gründen außer einer fehlerhaften Kombination verschiedener Zeichenkodierungen entstanden sein können.

Einzelnachweise und Anmerkungen

  1. Hier wird zumindest das von Unicode dafür vorgesehene Ersetzungszeichen verwendet.

Weblinks

Auf dieser Seite verwendete Medien

Beispiel Zeichensalat ReactOS-Fehlermeldung.png
Autor/Urheber:

Screenshot von PantheraLeo1359531

Software vonReactOS Contributors, Lizenz: GPL
Beispiel für Zeichensalat aufgrund falscher Buchstabencodierung.