HTML-Entität

Eine HTML-Entität ist eine Entität (also eine eindeutig abgrenzbare Zeichenfolge mit spezieller Bedeutung), die in HTML verwendet wird (also der textbasierten Auszeichnungssprache, in der beispielsweise Webseiten formuliert werden können). Häufig verwendet werden dort numerische Entitäten und benannte Entitäten, um Schriftzeichen zu bezeichnen (speziell wenn sie in der für die Webseite gewählten Codierung oder für die zur Erstellung verwendeten Eingabemethode nicht zur Verfügung stehen.) Auch bestimmte Steuerzeichen können so im Text sichtbar dargestellt werden.

Numerische Entitäten

Eine numerische Entität bezeichnet ein Zeichen durch seinen Unicode-Codepunkt. Hierfür sind zwei Formate definiert:

  • &#nnn;nnn repräsentiert hier den Codepunkt als Dezimalzahl (ohne führende Nullen).
  • &#xhhhh;hhhh repräsentiert hier den Codepunkt als Hexadezimalzahl, also so, wie der Unicode-Codepunkt üblicherweise angegeben wird (ohne das einleitende „U+“). Führende Nullen können angegeben werden und sind bei weniger als vierstelligen Werten üblich, um den Wert gleichlautend zur üblichen vierstelligen Unicode-Codepunkt-Angabe anzugeben.

Unabhängig davon, in welchem Code („charset“) das HTML-Dokument vorliegt, gilt immer nur der Codepunkt in Unicode. Damit sind numerische Entitäten im Bereich € bis Ÿ oder hexadezimal € bis Ÿ falsch, wenn damit Zeichen dargestellt werden sollen, die im Code Windows-1252 Codepunkte in diesem Bereich haben. Dazu gehören u. a. die Zeichen € und ‰, die Buchstaben Œ, œ, Š, š, Ÿ, Ž und ž sowie verschiedene Anführungszeichen und Gedankenstriche. Zeichen mit Unicode-Codepunkten von U+0080 bis U+009F kommen in Texten normalerweise nicht vor.

Benannte Entitäten

Eine benannte Entität hat das Format &aaa;aaa repräsentiert hier einen aus Groß- und Kleinbuchstaben des lateinischen Grundalphabets und Ziffern bestehenden Namen, der das zu bezeichnende Zeichen eindeutig identifiziert. Groß- und Kleinschreibung ist exakt zu verwenden und kann bedeutungsunterscheidend sein. Die Namen werden vom W3C (World Wide Web Consortium) festgelegt.[1][2]

Beispiele

ZeichenUnicodeBezeichnungDezimal-
code
Numerische EntitätBenannte
Entität
PositionNamedezimalhexadez.
·U+00B7middle dotHalbhoch­punkt0183···
ſU+017Flatin small letter long slanges s0383ſſ(keine)
U+2030per mille signPromille­zeichen8240‰‰‰
🖷U+1F5B7fax iconFaxsymbol128439🖷🖷(keine)

Dass das Promillezeichen unter Windows auch mit dem Dezimalcode 0137 geschrieben werden kann, lässt sich nicht für HTML-Entitäten nutzen.

Einzelnachweise

  1. W3C (World Wide Web Consortium): Character entity references in HTML 4 – Liste der benannten Entitäten, die in HTML 4 (und somit beispielsweise für die Erstellung von Wikipedia-Artikeln) verfügbar sind
  2. W3C (World Wide Web Consortium): Character entity reference chart – Liste der benannten Zeichen-Entitäten, die in HTML 4 und in HTML5 verfügbar sind