Trigraph
Ein Trigraph ist ein Graph, der aus einer Folge von drei Glyphen besteht und ein Phonem repräsentiert.
Sprachwissenschaft
Als Trigraph bezeichnet man in der Sprachwissenschaft eine Kombination aus drei Buchstaben, die phonetisch als Einheit behandelt werden und einen einzelnen Laut repräsentieren.
Programmiersprache C
Die Programmiersprache C verwendet nahezu den kompletten ASCII-Zeichensatz.[1][2]
Das kann zu folgenden Problemen führen:
- Manche Zeichen können nicht oder nur umständlich über die Tastatur eingegeben werden, insbesondere bei vielen älteren nicht-US-amerikanischen Tastaturbelegungen.
- In manchen Zeichensätzen, zum Beispiel nationale Varianten nach ISO 646, sind diese Zeichen nicht vorhanden, oder sie werden unterschiedlich kodiert (wie in den verschiedenen Varianten von EBCDIC), so dass Interoperabilitätsprobleme beim Dateiaustausch auftreten können.
Darum wurden in C neun Drei-Zeichen-Sequenzen definiert, die als Trigraphen bezeichnet werden. Sie beginnen alle jeweils mit ??
, gefolgt von einem weiteren Zeichen:
Trigraph | ersetztes Zeichen |
---|---|
??= | # |
??/ | \ |
??' | ^ |
??( | [ |
??) | ] |
??! | | |
??< | { |
??> | } |
??- | ~ |
Die neun Trigraphen werden vor jedem anderen Verarbeitungsschritt und überall im Programmtext durch die entsprechenden einfachen Zeichen ersetzt – insbesondere auch in Zeichen- und Zeichenketten-Konstanten:
puts("Bitte Kennnummer eingeben (im Format ??-???-??)");
Die Ausgabe ist dann:
Bitte Kennnummer eingeben (im Format ~?~]
wegen der Ersetzungen der Trigraphen ??- und ??) in der Zeichenkette.
Seit Ende der 1980er Jahre besteht keine Notwendigkeit mehr zur Verwendung von Trigraphen in C, da auf Tastaturen heutzutage alle Sonderzeichen vorhanden sind und sich ASCII bzw. Unicode als Standard etabliert haben.
C++
Die gleichen Trigraphen existierten auch in C++, galten dort aber seit C++11 als veraltet und sind mit C++17 entfernt worden.[3]
Aufgrund der schlechten Lesbarkeit im Quellcode und der Problematik, dass sie auch in Kommentaren und Zeichenkettenkonstanten wirksam sind, wurden in C++ sogenannte Digraphen und „alternative Schreibweisen“ (als eigene Schlüsselwörter) für manche Operatoren eingeführt, die ebenfalls die kritischen Zeichen vermeiden. Im Gegensatz zu den Trigraphen haben Digraphen und alternativen Schreibweisen nur dort ihre spezielle Bedeutung, wo ein Token erwartet wird.
Weblinks
Einzelnachweise
- ↑ British Standards Institute (Hrsg.): The C Standard – Incorporating TC1 – BS ISO/IEC 9899:1999. John Wiley & Sons, 2003, ISBN 0-470-84573-2, 5.2.1.1.
- ↑ Rationale für C99, Revision 5.10. (PDF; 898 kB) Abgerufen am 17. Oktober 2010 (englisch, Abschnitt 5.2.1.1).
- ↑ en.cppreference.com