Zahlzeichen in Unicode
Neben Buchstaben und anderen Schriftzeichen kodiert Unicode auch eine Reihe von Zahlzeichen für verschiedene Zahlschriften. Neben verschiedenen Formen der Dezimalziffern sind auch chinesische Zahlen und historische Zahlzeichen wie römische Zahlen kodiert. Weiter gibt es auch Brüche und verschiedene aus Zahlen abgeleitete Symbole.
Allgemeines
Um mit Zahlzeichen zu arbeiten, stellt der Unicode-Standard zwei Eigenschaften zur Verfügung: Numeric_Type
gibt an, um was für eine Art von Zahlzeichen es sich handelt. Der Wert decimal
kennzeichnet ein Zeichen dabei als Dezimalziffer, sodass Programme leicht den numerischen Wert einer Folge solcher Zahlzeichen bestimmen können. Bei anderen Zahlzeichen können komplexere Umrechnungen notwendig sein, etwa bei römischen Zahlen. Den numerischen Wert eines Zeichens kann man an der Eigenschaft Numeric_Value
ablesen. Die kodierten Zahlzeichen umfassen einen Wertebereich von −½ (༳, U+0F33, Tibetisch) bis 1.000.000.000.000 (兆, U+5146, Chinesisch und 𖭡, U+16B61, Pahawh Hmong).[1]
Nicht als Zahlzeichen betrachtet werden Zeichen, die nur manchmal zur Darstellung von Zahlen genutzt werden. So haben in einer Aufzählung, die Buchstaben verwendet (a) … b) … c) …) die Buchstaben die Werte 1 bis 3, da dies aber nicht die Hauptverwendung darstellt, werden sie von Unicode als Buchstaben, nicht als Zahlen behandelt.
Kodierte Zeichen
Dezimalziffern
Die indischen Dezimalziffern werden in vielen verschiedenen Schriften in abweichenden Formen verwendet. Unicode kodiert daher die Ziffern für die einzelnen Schriftsysteme jeweils extra. Als „europäisch“ werden dabei die Ziffernformen bezeichnet, die sich ursprünglich in Europa entwickelten, heute aber weltweit in Gebrauch sind. Daneben gibt es die Ziffern im Arabischen und verschiedenen indischen Schriften. N’Ko fällt aus dem Rahmen, da hier Zahlen von rechts nach links geschrieben werden.
Form | Ziffern | Block |
---|---|---|
Europäisch | 0123456789 | Basis-Lateinisch |
Arabisch | ٠١٢٣٤٥٦٧٨٩ | Arabisch |
Arabisch (Iran, Pakistan, Afghanistan) | ۰۱۲۳۴۵۶۷۸۹ | |
Devanagari | ०१२३४५६७८९ | Devanagari |
Bengalisch | ০১২৩৪৫৬৭৮৯ | Bengalisch |
Gurmukhi | ੦੧੨੩੪੫੬੭੮੯ | Gurmukhi |
Gujarati | ૦૧૨૩૪૫૬૭૮૯ | Gujarati |
Oriya | ୦୧୨୩୪୫୬୭୮୯ | Oriya |
Tamilisch | ௦௧௨௩௪௫௬௭௮௯ | Tamilisch |
Telugu | ౦౧౨౩౪౫౬౭౮౯ | Telugu |
Kannada | ೦೧೨೩೪೫೬೭೮೯ | Kannada |
Malayalam | ൦൧൨൩൪൫൬൭൮൯ | Malayalam |
Tibetisch | ༠༡༢༣༤༥༦༧༨༩ | Tibetisch |
Lepcha | ᱀᱁᱂᱃᱄᱅᱆᱇᱈᱉ | Lepcha |
Limbu | ᥆᥇᥈᥉᥊᥋᥌᥍᥎᥏ | Limbu |
Saurashtra | ꣐꣑꣒꣓꣔꣕꣖꣗꣘꣙ | Saurashtra |
Sharada | 𑇐𑇑𑇒𑇓𑇔𑇕𑇖𑇗𑇘𑇙 | Sharada |
Takri | 𑛀𑛁𑛂𑛃𑛄𑛅𑛆𑛇𑛈𑛉 | Takri |
Chakma | 𑄶𑄷𑄸𑄹𑄺𑄻𑄼𑄽𑄾𑄿 | Chakma |
Meitei-Mayek | ꯰꯱꯲꯳꯴꯵꯶꯷꯸꯹ | Meitei-Mayek |
Ol Chiki | ᱐᱑᱒᱓᱔᱕᱖᱗᱘᱙ | Ol Chiki |
Sorang-Sompeng | 𑃰𑃱𑃲𑃳𑃴𑃵𑃶𑃷𑃸𑃹 | Sorang-Sompeng |
Brahmi | 𑁦𑁧𑁨𑁩𑁪𑁫𑁬𑁭𑁮𑁯 | Brahmi |
Thailändisch | ๐๑๒๓๔๕๖๗๘๙ | Thailändisch |
Laotisch | ໐໑໒໓໔໕໖໗໘໙ | Laotisch |
Birmanisch | ၀၁၂၃၄၅၆၇၈၉ | Birmanisch |
Birmanisch (Shan) | ႐႑႒႓႔႕႖႗႘႙ | |
Khmer | ០១២៣៤៥៦៧៨៩ | Khmer |
Neu-Tai-Lue | ᧐᧑᧒᧓᧔᧕᧖᧗᧘᧙ | Neu-Tai-Lue |
Lanna (säkular) | ᪀᪁᪂᪃᪄᪅᪆᪇᪈᪉ | Lanna |
Lanna (sakral) | ᪐᪑᪒᪓᪔᪕᪖᪗᪘᪙ | |
Kayah Li | ꤀꤁꤂꤃꤄꤅꤆꤇꤈꤉ | Kayah Li |
Cham | ꩐꩑꩒꩓꩔꩕꩖꩗꩘꩙ | Cham |
Balinesisch | ᭐᭑᭒᭓᭔᭕᭖᭗᭘᭙ | Balinesisch |
Javanisch | ꧐꧑꧒꧓꧔꧕꧖꧗꧘꧙ | Javanisch |
Sundanesisch | ᮰᮱᮲᮳᮴᮵᮶᮷᮸᮹ | Sundanesisch |
Mongolisch | ᠐᠑᠒᠓᠔᠕᠖᠗᠘᠙ | Mongolisch |
Osmaniya | 𐒠𐒡𐒢𐒣𐒤𐒥𐒦𐒧𐒨𐒩 | Osmaniya |
N’Ko | ߀߁߂߃߄߅߆߇߈߉ | N’Ko |
Vai | ꘠꘡꘢꘣꘤꘥꘦꘧꘨꘩ | Vai |
Daneben gibt es weitere Blöcke, die aus den europäischen Ziffern abgeleitete Symbole enthalten, etwa eingekreiste Zahlen.
Buchstabenbasierte Zahlzeichen
Viele Zahlensysteme verwenden die gewöhnlichen Buchstaben der Schrift, um Zahlen darzustellen. Solche Buchstaben werden in Unicode nicht als Zahlzeichen angesehen, auch werden sie in den meisten Fällen nicht doppelt kodiert. Es gibt aber auch einige Zahlensysteme, deren Zahlzeichen zwar auf den Buchstaben aufbauen, sich aber von diesen unterscheiden. So enthält der Unicodeblock Altgriechische Zahlzeichen eine Reihe von altgriechischen akrophonischen Zahlzeichen für die griechische Zahlschrift.
Ein besonderer Fall sind die römischen Zahlen. Hier sind die Zahlen von 1 bis 12, sowie 50 (L), 100 (C), 500 (D) und 1000 (M) im Unicodeblock Zahlzeichen zusammen mit den Zeichen für 5000 und 10.000 extra kodiert. Diese sind vor allem zur Verwendung mit den Zeichen ostasiatischer Schriften in Unicode gedacht, da sie im Spaltenlayout nicht wie normale Buchstaben um 90° gedreht dargestellt werden. In anderen Fällen aber sollten römische Zahlen aus den gewöhnlichen lateinischen Buchstaben zusammengesetzt werden.
Chinesische Zahlzeichen
Die Zeichen für die chinesische Zahlschrift sind zusammen mit den anderen CJK-Zeichen im Unicodeblock Vereinheitlichte CJK-Ideogramme kodiert. Ebenfalls kodiert sind wie für die europäischen Dezimalziffern auch eingekreiste Formen. Auch die älteren Stabziffern haben mit dem Unicodeblock Zählstabziffern einen eigenen Block.
Weitere Zahlzeichen
Weitere Zahlzeichen sind meist zusammen mit den Buchstaben einer Schrift im selben Block kodiert. Weitere Blöcke, die speziell Zahlzeichen gewidmet sind, sind die Blöcke Ägäische Zahlzeichen, Keilschrift-Zahlzeichen und -Interpunktion, Koptische Zahlzeichen und Singhalesische Zahlzeichen.
Brüche
Neben Zeichen für ganze Zahlen beinhaltet Unicode auch eine Reihe von Brüchen aus verschiedenen Zahlschriften. Für die europäischen Zahlen liegen diese hauptsächlich im Unicodeblock Zahlzeichen. Nordindische Brüche liegen im Unicodeblock Allgemeine indische Ziffern, altgriechische bei den anderen altgriechischen Zahlzeichen. Auch hier gibt es eine Reihe weiterer Zahlzeichen, die mit den Buchstaben einer Schrift zusammen in einem Block liegen.
Quellen
- Julie D. Allen et al.: The Unicode Standard. Version 6.2 – Core Specification. The Unicode Consortium, Mountain View, CA, 2012. ISBN 978-1-936213-07-8. Chapter 15.3: Numerals. (online, PDF)
Einzelnachweise
- ↑ DerivedNumericValues.txt, Unicode 7.0
Auf dieser Seite verwendete Medien
Unicode logo used on the Unicode Consortium website launched on 17 July 2019 (https://home.unicode.org/). Replaces the red Unicode logo.svg: with different typeface for the word "Unicode" that was used on the old website.