Liste der Unicode-Eigenschaften

Der Unicode-Standard kodiert nicht nur eine sehr große Zahl von Zeichen, sondern legt zu jedem dieser Zeichen auch eine Reihe von Eigenschaften fest, die das Zeichen und sein Verhalten beschreiben. So kann man den Eigenschaften des Buchstaben Ä etwa entnehmen, dass es sich um einen Großbuchstaben handelt, dass der zugehörige Kleinbuchstabe das ä ist oder dass er sich in ein A mit Trema zerlegen lässt.

Allgemeines

Formal sind Unicode-Eigenschaften als Abbildungen von Codepunkten in einen bestimmten Wertebereich definiert. Die Daten werden in verschiedenen einfachen Textdateien sowie als XML-Datei zur Verfügung gestellt.

Werte

Je nach Eigenschaft sind verschiedene Wertebereiche möglich. Die meisten Eigenschaften sind aufzählende Eigenschaften, ihr Wertebereich besteht aus einer festgelegten Menge. Aufzählende Eigenschaften werden nochmals weiter unterteilt in Katalogeigenschaften und binäre Eigenschaften. Katalogeigenschaften zeichnen sich dadurch aus, dass mit neuen Unicode-Versionen die Menge der möglichen Werte schrittweise anwächst. Binäre Eigenschaften sind aufzählende Eigenschaften mit genau zwei Werten, wahr (Y) und falsch (N). Es wird also angegeben, ob die Eigenschaft auf dieses Zeichen zutrifft oder nicht.

Außerdem gibt es Stringeigenschaften, die jedem Zeichen eine Zeichenkette aus Unicode-Zeichen zuordnen, numerische Eigenschaften, die jedem Zeichen eine Zahl zuordnen und sonstige Eigenschaften, die sich keiner dieser Kategorien zuordnen lassen.

Standardwerte

Eigenschaften haben aus mehreren Gründen ein oder mehrere Standardwerte. Zum einen wird in den Tabellen oft der Standardwert ausgelassen, um diese übersichtlicher zu gestalten. Zum anderen müssen Programme auch mit Text umgehen können, der nach einer neueren Unicode-Version erstellt wurde, und daher auch Zeichen enthalten kann, die zu dem Zeitpunkt, als das Programm entwickelt wurde, noch nicht belegt waren. Für aufzählende Eigenschaften ist jeweils meist ein Wert festgelegt, der als Standard gilt, in wenigen Fällen gibt es mehrere Standardwerte, die je nach Block vergeben werden. Bei binären Eigenschaften ist der Standardwert immer N, also nicht zutreffend.

Bei Stringeigenschaften ist der Standardwert immer das Zeichen selbst.

Aliase

Viele Eigenschaften haben neben ihrem eigentlichen Namen auch einen oder mehrere Aliasnamen. Häufig handelt es sich dabei um Abkürzungen. Auch für die möglichen Werte aufzählender Eigenschaften sind oft kurze Aliase festgelegt.

Status

Viele Eigenschaften sind normativ, also verbindlich für Programme, die nach dem Unicode-Standard arbeiten und die Eigenschaft interpretieren. Andere Eigenschaften sind dagegen als informativ gekennzeichnet und dienen nur als Zusatzinformation ohne verbindlichen Charakter. Eine Gruppe von Eigenschaften ist als beisteuernd gekennzeichnet. Diese Eigenschaften sollten nicht für sich alleine verwendet werden, sondern wurden definiert, um andere Eigenschaften daraus abzuleiten. Sie kennzeichnen meist eine Ausnahmemenge von Zeichen, die ansonsten nicht erfasst würde. Als Letztes gibt es noch provisorische Eigenschaften, die zunächst unter Vorbehalt aufgenommen wurden, um zu sehen, ob sie sich in der Praxis bewähren.

Einige Eigenschaften sind zusätzlich als deprecated („überholt“) markiert, diese sollten aus unterschiedlichen Gründen nicht mehr verwendet werden, bleiben aber aus Gründen der Abwärtskompatibilität im Unicode-Standard vorhanden.

Stabilität

Um Abwärtskompatibilität zu gewährleisten, werden einige Eigenschaften, sobald sie einmal für ein Zeichen festgelegt sind, nicht oder nur in bestimmter vorher bekannter Weise geändert. So ist etwa festgelegt, dass der Name eines Zeichens nie geändert wird, selbst wenn er sich als falsch herausstellt.

Eigenschaften

Die folgenden Listen führen alle Unicode-Eigenschaften auf, gruppiert wie in der offiziellen Dokumentation, zum Stand Unicode 6.3. Angegeben ist jeweils der Name der Eigenschaft, ein abkürzender Alias-Name (falls vorhanden), der Status der Eigenschaft, die Art des Wertebereichs und eine Beschreibung.

Allgemein

Die allgemeinen Eigenschaften geben einen groben Überblick über das Zeichen. Verwendung finden sie unter anderem in regulären Ausdrücken, wenn diese etwa wie in Perl die Abfrage von Unicode-Eigenschaften unterstützen.[1]

EigenschaftKurzStatusWerteBeschreibung
NamenanormativSonstigesName des Zeichens*
Name_AliasnormativSonstigesAliasnamen, vor allem für Kontrollzeichen verwendet, bei denen die Eigenschaft Name grundsätzlich leer bleibt
BlockblknormativKatalogUnicodeblock, in dem das Zeichen liegt
Ageagenormativ
informativ
KatalogVersion, in der das Zeichen aufgenommen wurde
General_Categorygcnormativaufzählendgrobe Unterteilung aller Zeichen, siehe eigener Abschnitt
ScriptscinformativKatalogSchriftsystem des Zeichens, also etwa Lateinisch, Griechisch, Kyrillisch, etc.; Common für Zeichen, die in mehreren Schriftsystemen verwendet werden
Script_ExtensionsinformativSonstigesSchriftsysteme bei Zeichen, die in mehreren Systemen verwendet werden
White_SpaceWSpacenormativbinärkennzeichnet ein Zeichen als Leerzeichen
AlphabeticAlphainformativbinärZeichen aus Alphabeten
Hangul_Syllable_TypehstnormativaufzählendBestimmung der Silbenblöcke im Koreanischen
Noncharacter_Code_PointNCharnormativbinärreservierte Zeichen
Default_Ignorable_Code_PointDInormativbinärZeichen, die bei der Darstellung ignoriert werden sollten, sofern das Programm sie nicht unterstützt
DeprecatedDepnormativbinärmissbilligte Zeichen, die nicht mehr verwendet werden sollten
Logical_Order_ExceptionLOEnormativbinärZeichen, die vor der Anwendung des Unicode Collation Algorithm mit dem folgenden Zeichen vertauscht werden müssen
Variation_SelectorVSnormativbinärVariantenselektoren, die zwischen verschiedenen Darstellungsvarianten des vorhergehenden Zeichens wählen
* Neben einzelnen Zeichen haben auch einige Zeichenfolgen einen eigenen Namen.[2]

Allgemeine Kategorie

Die Eigenschaft General_Category ist eine der grundlegenden Eigenschaften, die sowohl im Unicode-Standard selbst als auch in vielen anderen technischen Dokumentationen verwendet wird. Sie unterteilt alle Zeichen nach ihrer Hauptverwendung in Buchstaben, Zahlen, Interpunktion und weitere. Die folgende Tabelle listet die möglichen Werte auf.

KategorieCodeBedeutungBeispiele
BuchstabeL
GroßbuchstabeLuGroßbuchstabeA, Ä, Δ, DŽ
KleinbuchstabeLlKleinbuchstabea, ä, δ, dž
TitelbuchstabeLtZeichen, die in Titelschreibweise stehen. Dies sind nur einige wenige Zeichen, die einen Digraph kodierenDž
Modifizierender BuchstabeLmBuchstaben, die den vorangehenden Buchstaben modifizierenBuchstaben aus dem Unicodeblock Spacing Modifier Letters
Sonstiger BuchstabeLoBuchstaben aus Alphabeten, die nicht zwischen Groß- und Kleinschreibung unterscheiden (etwa Hebräisch), CJK und sonstigeב, 丌
Kombinierendes ZeichenM
ohne VorschubMnKombinierendes Zeichen, das auf oder unter das vorangehenden Zeichen gesetzt wirdkombinierende diakritische Zeichen
mit VorschubMcKombinierendes Zeichen, das selbst Platz beanspruchtindische Vokalzeichen
umschließendMeKombinierendes Zeichen, das das vorangehende Zeichen ganz umschließtKombinierender umschließender Kreis
ZahlN
ZifferNdZiffern0, 1
BuchstabeNlBuchstaben, die als Zahlen verwendet werden
Sonstiges ZahlzeichenNosonstige Zahlen, etwa hochgestellte, eingekreiste oder Brüche², ½, ②
InterpunktionP
verbindendPcZeichen, die zwei Teile zu einem Wort verbindenUnterstrich
StrichPdverschiedene Striche: Bindestrich, Gedankenstrich, etc.-, –, —
öffnendPsöffnende Klammern(, [, {
schließendPeschließende Klammern), ], }
öffnendes AnführungszeichenPiöffnende Anführungszeichen (kann je nach Sprache auch als schließendes verwendet werden)«
schließendes AnführungszeichenPfschließendes Anführungszeichen (kann je nach Sprache auch als öffnendes verwendet werden)»
sonstige InterpunktionPoSatzzeichen und andere Interpunktion, die in keine der obigen Kategorien fallen! . , : ; ? §
SymbolS
Mathematisches SymbolSmSymbole, die in mathematischen Zusammenhängen verwendet werden+, <, >, ±
WährungssymbolScSymbole, die eine Währung kennzeichnen$, €
Modifizierendes SymbolSkSymbole, die das vorangehende Zeichen modifizierenSymbole aus dem Unicodeblock Spacing Modifier Letters
Sonstiges SymbolSoSymbole, die in keine der obigen Kategorien fallen⛔, ©
LeerraumZ
LeerzeichenZsLeerzeichen unterschiedlicher BreiteLeerzeichen, geschütztes Leerzeichen
ZeilenumbruchZlZeilentrenner (U+2028)
AbsatzumbruchZpAbsatztrenner (U+2029)
Sonstiges ZeichenC
SteuerzeichenCcallgemeine SteuerzeichenBEL
FormatierungCfSteuerzeichen zur Formatierungbedingter Trennstrich, bidirektionale Steuerzeichen
SurrogateCsSurrogate
Privater GebrauchCoZeichen zum privaten GebrauchU+F8FF
nicht zugewiesenCnCodepunkte, denen (noch) kein Zeichen zugewiesen ist

Groß-/Kleinschreibung

Viele Eigenschaften beschäftigen sich mit der Groß-/Kleinschreibung. Sie legen fest, ob ein Zeichen ein Groß- oder Kleinbuchstabe ist, welches der Kleinbuchstabe zu einem gegebenen Großbuchstaben ist und umgekehrt und weiteres. Um Zeichenketten schreibweisenunabhängig zu vergleichen, wird eine als case fold bezeichnete Normalform definiert. Verwendet werden diese Eigenschaften unter anderem von den verschiedenen Unicode-Casing-Algorithmen.

EigenschaftKurzStatusWerteBeschreibung
UppercaseUpperinformativbinärkennzeichnet ein Zeichen als Großbuchstaben
LowercaseLowerinformativbinärkennzeichnet ein Zeichen als Kleinbuchstaben
Casedinformativbinärkennzeichnet alle Zeichen die ein Groß-, Klein- oder Titelbuchstabe sind
Simple_Lowercase_MappingslcnormativStringzugehöriger Kleinbuchstabe (falls es sich um ein Zeichen handelt)
Simple_Titlecase_MappingstcnormativStringzugehöriger Titelbuchstabe (falls es sich um ein Zeichen handelt)
Simple_Uppercase_MappingsucnormativStringzugehöriger Großbuchstabe (falls es sich um ein Zeichen handelt)
Simple_Case_FoldingscfnormativStringzugehöriger casefold-Buchstabe (falls es sich um ein Zeichen handelt)
Lowercase_MappinglcinformativStringentsprechende Zuordnungen, die auch komplexere Umwandlungen beinhalten
Titlecase_MappingtcinformativString
Uppercase_MappingucinformativString
Case_FoldingcfnormativString
Soft_DottedSDnormativbinäri, j und ähnliche Zeichen, deren Punkt bei der Großschreibung und im Zusammenhang mit diakritischen Zeichen entfernt wird
Case_IgnorableCIinformativbinärZeichen ohne Bedeutung für Fragen nach Groß-/Kleinschreibung
Changes_When_LowercasedCWLinformativbinärZeichen, die sich beim Umwandeln in Kleinschreibung ändern
Changes_When_TitlecasedCWTinformativbinärZeichen, die sich beim Umwandeln in Titelschreibung ändern
Changes_When_UppercasedCWUinformativbinärZeichen, die sich beim Umwandeln in Großschreibung ändern
Changes_When_CasefoldedCWCFinformativbinärZeichen, die sich beim Umwandeln in die casefold-Normalform ändern
Changes_When_CasemappedCWCMinformativbinärZeichen, die sich bei irgendeiner Änderung von Groß-/Kleinschreibung ändern

Numerisch

Die folgenden Eigenschaften beschäftigen sich mit numerischen Eigenschaften von Zeichen, besonders den Zahlzeichen in Unicode.

EigenschaftKurzStatusWerteBeschreibung
Numeric_Valuenvnormativnumerischnumerischer Wert des Zeichens
Numeric_TypentnormativaufzählendArt (Dezimal, Ziffer, Numerisch)
ASCII_Hex_DigitAHexnormativbinärASCII-Zeichen, die für Hexadezimalziffern verwendet werden, also 0 bis 9, a bis f und A bis F
Hex_DigitHexinformativbinärZeichen, die für Hexadezimalziffern verwendet werden, einschließlich ihrer Varianten

Normalisierung

Eine Reihe von Eigenschaften behandelt die verschiedenen Arten der Normalisierung von Unicode-Texten.

EigenschaftKurzStatusWerteBeschreibung
Canonical_Combining_Classcccnormativaufzählend/numerischgibt an, welche kombinierende Zeichen miteinander wechselwirken und in welcher Reihenfolge sie sortiert werden sollen
Decomposition_MappingdmnormativStringgibt die Zerlegung eines Zeichens an
Decomposition_Typedtnormativ
informativ
aufzählendgibt die Art der Zerlegung (kanonisch, ändert die Schriftart/das Umbruchverhalten/etc.) an
Composition_ExclusionCEnormativbinärZeichen mit einer kanonischen Zerlegung, die in den kombinierten Normalformen nicht verwendet werden sollen
Full_Composition_ExclusionComp_Exnormativbinär
FC_NFKC_ClosureFC_NFKCnormativ
deprecated
Stringzugehörige casefold-Normalform, falls das Zeichen erst in die casefold-Normalform und dann in NFKC überführt wird
NFC_Quick_CheckNFC_QCnormativaufzählendEigenschaften, die einen schnellen Test ermöglichen, ob eine Zeichenkette in einer bestimmten Normalform vorliegt
NFKC_Quick_CheckNFKC_QCnormativaufzählend
NFD_Quick_CheckNFD_QCnormativaufzählend
NFKD_Quick_CheckNFKD_QCnormativaufzählend
Expands_On_NFCXO_NFCnormativ
deprecated
binärZeichen, die beim Umwandeln in die entsprechende Normalisierungsform zu mehreren Zeichen werden
Expands_On_NFDXO_NFDnormativ
deprecated
binär
Expands_On_NFKCXO_NFKCnormativ
deprecated
binär
Expands_On_NFKDXO_NFKDnormativ
deprecated
binär
NFKC_CasefoldNFKC_CFinformativStringZeichen nach Umwandlung in NFKC und anschließend die casefold-Normalform
Changes_When_NFKC_CasefoldedCWKCFinformativbinärZeichen, die sich ändern, wenn sie erst in NFKC und dann in die casefold-Normalform überführt werden

Darstellung

Die folgenden Eigenschaften spielen eine Rolle bei der Darstellung von Text.

EigenschaftKurzStatusWerteBeschreibung
Joining_Groupjgnormativaufzählendlegt fest wie bzw. ob sich ein Buchstabe mit seinen Nachbarn verbindet, siehe Arabisch in Unicode
Joining_Typejtnormativaufzählend
Join_ControlJoin_CnormativbinärSteuerzeichen für Ligaturen und Buchstabenverbindungen
Line_Breaklbnormativaufzählendlegt das Umbruchverhalten für den Unicode-Zeilenumbruch-Algorithmus fest
Grapheme_Cluster_BreakGCBinformativaufzählendwerden in den Segmentierungsalgorithmen zur Bestimmung der Grenzen von Graphemen, Sätzen und Wörtern verwendet
Sentence_BreakSBinformativaufzählend
Word_BreakWBinformativaufzählend
East_Asian_Widtheainformativaufzählendgibt die Breite eines Zeichens an, die bei der Darstellung ostasiatischer Texte eine Rolle spielt
Prepended_Concatenation_MarkPCMinformativbinärZeichen, die nachfolgende Zeichen umspannen, etwa das syrische Abkürzungszeichen

Bidi

Für die Darstellung von bidirektionalem Text stehen folgende Eigenschaften zur Verfügung.

EigenschaftKurzStatusWerteBeschreibung
Bidi_Classbcnormativaufzählendbestimmt die Schreibrichtung im Unicode-Bidi-Algorithmus
Bidi_ControlBidi_CnormativbinärBidirektionales Steuerzeichen
Bidi_MirroredBidi_Mnormativbinärgibt an, ob ein Zeichen im linksläufigen Text gespiegelt dargestellt werden muss
Bidi_Mirroring_GlyphbmginformativSonstigesmögliches Spiegelbild des Zeichens, etwa ( als Spiegelbild für ), in einigen Fällen existiert kein solches Zeichen
Bidi_Paired_BracketbpbnormativSonstigesGegenstück einer Klammer
Bidi_Paired_Bracket_Typebptnormativaufzählendkennzeichnet öffnende und schließende Klammern

Bezeichner

Die folgenden Eigenschaften sind eine Möglichkeit, die erlaubten Zeichen in Bezeichnern festzulegen. Im Gegensatz zu klassischen Programmiersprachen, die nur ASCII-Zeichen erlauben, sind in Sprachen, die diese Eigenschaften verwenden, ein Großteil der Unicode-Zeichen in Bezeichnern zulässig. Ein Beispiel für eine Sprache, deren Syntax weitgehend diesen Umfang zulässt, ist JavaScript.[3]

EigenschaftKurzStatusWerteBeschreibung
ID_StartIDSinformativbinärZeichen, das am Anfang eines Bezeichners stehen kann
ID_ContinueIDCinformativbinärZeichen, das an den folgenden Stellen in einem Bezeichner stehen kann
XID_StartXIDSinformativbinärZeichen, das am Anfang eines Bezeichners stehen kann
XID_ContinueXIDCinformativbinärZeichen, das an den folgenden Stellen in einem Bezeichner stehen kann
Pattern_SyntaxPat_SynnormativbinärZeichen, die in der Syntax verwendet werden können
Pattern_White_SpacePat_WSnormativbinärZeichen, die als Leerraum behandelt werden sollten

CJK

Einige Eigenschaften betreffen CJK-Zeichen. Zusätzlich gibt es noch eine Reihe weiterer Eigenschaften, siehe den Abschnitt Unihan.

EigenschaftKurzStatusWerteBeschreibung
IdeographicIdeoinformativbinärCJK-Zeichen
IDS_Binary_OperatorIDSBnormativbinärIdeographisches Beschreibungszeichen
IDS_Trinary_OperatorIDSTnormativbinär
Unified_IdeographicUIdeonormativbinärchinesisches Schriftzeichen, das in ideographischen Beschreibungssequenzen verwendet werden kann
RadicalnormativbinärRadikal, das in ideographischen Beschreibungssequenzen verwendet werden kann

Sonstiges

Einige Eigenschaften dienen hauptsächlich der Information über ein Zeichen, ohne dass sie für spezielle Anwendungen vorgesehen sind.

EigenschaftKurzStatusWerteBeschreibung
MathinformativbinärMathematische Zeichen in Unicode
Quotation_MarkQMarkinformativbinärAnführungszeichen
Dashinformativbinärhorizontale Striche verschiedener Länge
Hypheninformativ
deprecated
binärBindestrich und ähnliche Zeichen, wurde ursprünglich für den Zeilenumbruch benutzt und dort durch die Line_Break-Eigenschaft abgelöst
STerminformativbinärZeichen, die ein Satzende markieren
Terminal_PunctuationTerminformativbinärSatzzeichen, die meist ein Satzende markieren
DiacriticDiainformativbinärDiakritisches Zeichen
ExtenderExtinformativbinärZeichen, die den vorausgehenden Buchstaben erweitern, etwa Längenzeichen
Grapheme_BaseGr_Basenormativbinärältere Eigenschaften zur Bestimmung von Graphemen, siehe Grapheme_Cluster_Break im Abschnitt Darstellung für die neuere Methode
Grapheme_Link kann aus der Canonical_Combining_Class-Eigenschaft ermittelt werden
Grapheme_ExtendGr_Extnormativbinär
Grapheme_LinkGr_Linkinformativ
deprecated
binär
Unicode_1_Namena1informativSonstigesalter Name in der Unicode-Version 1.0
ISO_Commentiscinformativ
deprecated
Sonstigesursprünglich für Kommentare in der ISO 10646 Namensliste benutzt, jetzt leer
Indic_Matra_Categoryprovisorischaufzählendbestimmt die Platzierung abhängiger Vokale in indischen Schriften
Indic_Syllabic_Categoryprovisorischaufzählendbestimmt die Struktur der Kategorien silbenbildender Komponenten in indischen Schriften

Beisteuernde Eigenschaften

Diese Eigenschaften werden nicht alleine verwendet, sondern werden benutzt, um andere Eigenschaften daraus abzuleiten. Meist handelt es sich um Ausnahmemengen, die durch die allgemeine Kategorie nicht abgedeckt werden.

EigenschaftKurzStatusWerteBeschreibung
Other_AlphabeticOAlphabeisteuerndbinärfür Alphabetic
Other_Default_Ignorable_Code_PointODIbeisteuerndbinärfür Default_Ignorable_Code_Point
Other_Grapheme_ExtendOGr_Extbeisteuerndbinärfür Grapheme_Extend
Other_ID_StartOIDSbeisteuerndbinärfür Abwärtskompatibilität von ID_Start
Other_ID_ContinueOIDCbeisteuerndbinärfür Abwärtskompatibilität von ID_Continue
Other_LowercaseOLowerbeisteuerndbinärfür Lowercase
Other_MathOMathbeisteuerndbinärfür Math
Other_UppercaseOUpperbeisteuerndbinärfür Uppercase
Jamo_Short_NameJSNbeisteuerndSonstigesfür Name koreanischer Silbenblöcke

Unihan

Für CJK-Zeichen, die im Zuge der Han-Vereinheitlichung in Unicode aufgenommen wurden, existiert eine eigene Datenbank, die Eigenschaften speziell für diese Zeichen bereitstellt. Die Angaben zur Quelle bezeichnen dabei die Zeichenkodierung in verschiedenen nationalen Zeichensätzen. Neben den hier aufgeführten Eigenschaften gibt es eine Reihe weiterer provisorischer Eigenschaften, die weitere Hinweise zur Aussprache, Bedeutung, alternativen Kodierungen etc. liefern.

EigenschaftStatusWerteBeschreibung
kAccountingNumericinformativnumerischnumerischer Wert für fälschungssichere Zahlzeichen
kOtherNumericinformativnumerischnumerischer Wert eines Zeichens, das selten als Zahlzeichen verwendet wird
kPrimaryNumericinformativnumerischnumerischer Wert eines gewöhnlichen Zahlzeichens
kCompatibilityVariantnormativStringNormalisierung des Zeichens, sofern es sich um eine Kompatibilitätsvariante handelt
kIICorenormativSonstigesZeichen, das auf allen Systemen vorhanden sein sollte
kIRG_GSourcenormativSonstigesQuelle: China/Singapur
kIRG_HSourcenormativSonstigesQuelle: Hongkong
kIRG_JSourcenormativSonstigesQuelle: Japan
kIRG_KPSourcenormativSonstigesQuelle: Nordkorea
kIRG_KSourcenormativSonstigesQuelle: Südkorea
kIRG_MSourcenormativSonstigesQuelle: Macao
kIRG_TSourcenormativSonstigesQuelle: Taiwan
kIRG_USourcenormativSonstigesQuelle: USA
kIRG_VSourcenormativSonstigesQuelle: Vietnam
kRSUnicodeinformativSonstigesRadikal und Anzahl der weiteren Striche
kMandarininformativSonstigesPinyin-Lesart
kTotalStrokesinformativSonstigesAnzahl der Striche inklusive Radikal

Quellen

  • Mark Davis, Ken Whistler: Unicode Standard Annex #44: Unicode Character Database. (online)
  • John H. Jenkins, Richard Cook, Ken Lunde: Unicode Standard Annex #38: Unicode Han Database. (online)
  • Ken Whistler, Asmus Freytag: Unicode Technical Report #23: The Unicode Character Property Model. (online)
  • Eric Muller: Unicode Standard Annex #42: Unicode Character Database in XML. (online)

Einzelnachweise

  1. perlretut: More on characters, strings, and character classes. Perl-Dokumentation auf perldoc.perl.org
  2. Addison Phillips: Unicode Standard Annex #34: Unicode Named Character Sequences. (online)
  3. ECMAScript Language Specification, 5.1 Edition, 7.6 Identifier Names and Identifiers

Weblinks