Schriftsysteme in Unicode

Als Schriftsystem (englisch script) wird in Unicode eine Gruppe von Zeichen genannt, die gemeinsam als Schrift verwendet werden. In den meisten Fällen stimmen die Schriftsysteme grob mit den Unicodeblöcken überein, es gibt allerdings Schriftsysteme, die auf mehrere Blöcke verteilt sind und Blöcke, die Zeichen verschiedener Schriftsysteme umfassen. Schriftsysteme sind unabhängig von Sprachen. Zwar gibt es Fälle, in denen sich Schriftsystem und Sprache entsprechen, aber viele Schriftsysteme werden zum Schreiben mehrerer verschiedener Sprachen verwendet. So wird das lateinische Alphabet im Deutschen, Englischen, Französischen, Vietnamesischen und vielen weiteren Sprachen als Schrift verwendet. Umgekehrt kann eine Sprache mehrere Schriften nutzen. So wurde das Türkische früher in arabischer Schrift geschrieben, während heute das lateinische Alphabet benutzt wird.

Ob zwei Schriften einem gemeinsamen Schriftsystem angehören oder nicht, lässt sich nicht immer eindeutig festlegen. So betrachtet Unicode die japanischen Kanji als eine grafische Variante der chinesischen Schriftzeichen und fasst sie im Zuge der Han-Vereinheitlichung mit diesen zusammen. Das koptische Alphabet wurde ursprünglich als Erweiterung des griechischen angesehen und erst später als eigenständiges Schriftsystem in Unicode kodiert.

In der aktuellen Unicode-Version 15.1 vom September 2023 sind insgesamt 161 verschiedene Schriftsysteme kodiert.

Formale Definition

Formal festgelegt wird das Schriftsystem, dem ein Zeichen angehört, durch zwei Eigenschaften. In den meisten Fällen liefert die Script-Eigenschaft die nötige Information, sie nennt den englischen Namen des Schriftsystems. Insgesamt gibt es 139 verschiedene Werte. Drei dieser Werte haben eine spezielle Bedeutung:

Unknown kennzeichnet Zeichen, deren Schriftsystem sich nicht ermitteln lässt. Dies betrifft neben noch nicht belegten Codepunkten auch Zeichen aus dem Bereich zur privaten Verwendung.
Inherited (564 Zeichen) kennzeichnet hauptsächlich kombinierende Zeichen. Diese werden nach Aussehen, nicht nach Verwendung kodiert. So wird der Akut sowohl mit lateinischen als auch mit griechischen Buchstaben verwendet. Bei der Bestimmung des Schriftsystems nehmen solche Zeichen den Wert des vorangehenden Zeichens an.
Common (7279 Zeichen) schließlich bezeichnet Zeichen, die in mehreren Schriftsystemen verwendet werden können. Während manche dieser Zeichen nur in einigen wenigen verwandten Schriftsystemen verwendet werden, können Zeichen für die Interpunktion und Symbole mit allen Schriftsystemen genutzt werden.

Außerdem gibt es je einen Wert für jedes der 135 Schriftsysteme und einen weiteren für Braille-Zeichen. Diese gelten zwar als Symbole, besitzen jedoch einen eigenen Wert für die Script-Eigenschaft.

Eine genauere Angabe zum Schriftsystem macht in manchen Fällen die Script_Extensions-Eigenschaft. Bei Zeichen mit dem Wert Inherited oder Common, die nur in wenigen Schriftsystemen verwendet werden, zählt sie diese Schriftsysteme auf.

Verwendung

Die Script-Eigenschaft kann auf verschiedene Weisen verwendet werden. Sie kann genutzt werden, um die Schrift zu erkennen, mit der ein Text geschrieben ist, oder Wörter aus einer bestimmten Schrift in einem Dokument zu finden. Zu diesem Zweck erlauben einige Implementierungen regulärer Ausdrücke die Verwendung von Unicode-Eigenschaften.

Eine andere Anwendung besteht in der Abwehr von Spoofing-Angriffen. So kann ein Browser anhand dieser Eigenschaft erkennen, dass in www.unicоde.org das о kein lateinischer, sondern ein kyrillischer Buchstabe ist, und den Benutzer vor einem URL-Spoofing-Versuch warnen.

Fehlende Schriftsysteme in Unicode

Mit jeder neuen Unicode-Version werden weitere Schriftsysteme in den internationalen Zeichencodierungsstandard aufgenommen. Die Script Encoding Initiative der Linguistin Dr. Deborah Anderson an der Universität Berkeley listet über 100 Schriftsysteme auf, die noch nicht in Unicode aufgenommen wurden.

Nach einer Aufstellung des Projektes »Missing Scripts« von der Hochschule Mainz, dem ANRT Nancy, Frankreich und der UC Berkeley, USA, gibt es nach dem aktuellen Stand der Forschung (Januar 2022) genau 294 bekannte Schriftsysteme der Menschheit. 131 davon wurden bisher noch nicht in Unicode kodiert, können also noch nicht auf dem Rechner oder Mobiltelefon verwendet werden.

Liste

Die folgende Liste nennt alle Schriftsysteme, die in Unicode 9.0 mit mindestens 100 Zeichen vertreten sind.

Schrift: gibt die deutsche Bezeichnung der Schrift an
Script: nennt die Bezeichnung, unter der das Schriftsystem in Unicode bekannt ist
Typ: klassifiziert die Schriftsysteme nach der Art des Aufbaus. Unicode unterscheidet folgende Typen: Alphabet, Abdschad, Silbenschrift, Abugida, Logografie
Anzahl: gibt die Anzahl der Zeichen an, die diesem Schriftsystem zugeordnet werden, inklusive der Zeichen, die gemäß der Script_Extensions-Eigenschaft in diesem Schriftsystem verwendet werden. In diesem Fall ist zusätzlich die Aufteilung in Klammern angegeben.
Unicode: verweist auf weitere Informationen, die diese Schrift in Zusammenhang mit Unicode betreffen.

Schrift	`Script`	Typ	Anzahl	Unicode
Lateinisches Alphabet	Latin	Alphabet	1370 (1350 + 20)	Lateinische Zeichen in Unicode
Griechisches Alphabet	Greek	Alphabet	522 (518 + 4)	Griechisch und Koptisch in Unicode
Koptische Schrift	Coptic	Alphabet	165 (137 + 28)	Griechisch und Koptisch in Unicode
Kyrillisches Alphabet	Cyrillic	Alphabet	450 (443 + 7)	Kyrillisch und Glagolitisch in Unicode
Glagolitische Schrift	Glagolitic	Alphabet	136 (132 + 4)	Kyrillisch und Glagolitisch in Unicode
Hebräisches Alphabet	Hebrew	Abdschad	133	Unicodeblock Hebräisch
Arabische Schrift	Arabic	Abdschad	1335 (1279 + 56)	Arabisch und Syrisch in Unicode
Devanagari	Devanagari	Abugida	212 (154 + 68)	Indische Schriften in Unicode
Bengalische Schrift	Bengali	Abugida	108 (93 + 15)
Gurmukhi-Schrift	Gurmukhi	Abugida	103 (79 + 24)
Gujarati-Schrift	Gujarati	Abugida	109 (85 + 24)
Telugu-Schrift	Telugu	Abugida	101 (96 + 5)
Kannada-Schrift	Kannada	Abugida	100 (88 + 12)
Malayalam-Schrift	Malayalam	Abugida	119 (114 + 5)
Singhalesische Schrift	Sinhala	Abugida	112 (110 + 2)
Tibetische Schrift	Tibetan	Abugida	207
Birmanische Schrift	Myanmar	Abugida	234 (223 + 11)
Khmer-Schrift	Khmer	Abugida	146
Balinesische Schrift	Balinese	Abugida	121
Lanna-Schrift	Tai_Tham	Abugida	127
Brahmi-Schrift	Brahmi	Abugida	109
Sharada-Schrift	Sharada	Abugida	100 (94 + 6)
Grantha-Schrift	Grantha	Abugida	115 (85 + 30)
Georgisches Alphabet	Georgian	Alphabet	129 (127 + 2)
Koreanisches Alphabet	Hangul	Silbenschrift	11775 (11739 + 36)	Ostasiatische Schriften in Unicode
Hiragana	Hiragana	Silbenschrift	143 (91 + 52)
Katakana	Katakana	Silbenschrift	352 (300 + 52)
Zhuyin	Bopomofo	Silbenschrift	110 (70 + 40)
Chinesische Schrift	Han	Logografie	82013 (81734 + 279)
Yi-Schrift	Yi	Silbenschrift	1246 (1220 + 26)
Xixia-Schrift	Tangut	Logografie	6881
Äthiopische Schrift	Ethiopic	Silbenschrift	495
Cherokee-Silbenschrift	Cherokee	Silbenschrift	172
Cree-Schrift	Canadian_Aboriginal	Silbenschrift	710
Mongolische Schrift	Mongolian	Alphabet	169 (166 + 3)
Linearschrift B	Linear_B	Silbenschrift	268 (211 + 57)	Historische Schriften in Unicode
Linearschrift A	Linear_A	Logografie	386 (341 + 45)
Kyprische Schrift	Cypriot	Silbenschrift	112 (55 + 57)
Keilschrift	Cuneiform	Logografie	1234
Ägyptische Hieroglyphen	Egyptian_Hieroglyphs	Logografie	1071
Brailleschrift	Braille	(Notationssystem)	256	Symbole in Unicode
Vai-Schrift	Vai	Silbenschrift	300
Bamun-Schrift	Bamum	Silbenschrift	657
Pollard-Schrift	Miao	Silbenschrift	133
Duployé-Kurzschrift	Duployan	(Notationssystem)	147 (143 + 4)
Pahawh Hmong	Pahawh_Hmong	Alphabet	127
Mende-Schrift	Mende_Kikakui	Silbenschrift	213
Hieroglyphen-Luwisch	Anatolian_Hieroglyphs	Logografie	583
Altungarische Schrift	Old_Hungarian	Alphabet	108
SignWriting	SignWriting	(Notationssystem)	672

Quellen

Mark Davis, Ken Whistler: Unicode Standard Annex #24: Unicode Script Property. (Online)
Julie D. Allen et al.: The Unicode Standard. Version 6.2 – Core Specification. The Unicode Consortium, Mountain View, CA, 2012. ISBN 978-1-936213-07-8. Chapter 6.1: Writing Systems. (online, PDF)
Scripts.txt, ScriptExtensions.txt (Unicode 9.0)

Weblinks

Code Charts – alle Unicodeblöcke, gruppiert nach Schriftsystemen (englisch)
Supported Scripts – alle Schriftsysteme in Unicode mit dem Zeitpunkt ihrer Aufnahme (englisch)
Script Encoding Initiative, Initiative an der linguistischen Fakultät der UC Berkeley, fehlende Schriftsysteme in Unicode aufzunehmen (englisch)
The World’s Writing Systems, Alle 294 bekannten Schriftsysteme der Menschheit mit je einer Referenz-Glyphe, sortierbar nach Unicode-Version (englisch)

Navigation

Navigation

Themenportale

Werbung