Häufigkeitsklasse

Vorkommenshäufigkeit von Personalpronomina in einem Korpus der serbokroatischen Sprache

Eine Häufigkeitsklasse ist in der Linguistik ein statistisches Maß für die Gebrauchshäufigkeit eines Wortes in einer natürlichen Sprache oder in einem Sprachausschnitt. Zur Berechnung der Häufigkeitsklasse wird das Zipfsche Gesetz verwendet, das als Sprachgesetz eine besondere Bedeutung in der Quantitativen Linguistik hat. Auch in der Korpuslinguistik haben sich Häufigkeitsklassen als empirisches Häufigkeitsmaß etabliert.

Berechnung

Als Grundlage für die Berechnung wird eine repräsentative und hinreichend große Menge an verfügbaren schriftlichen Quellen aus einer Sprache verwendet, die Korpus genannt wird. Das am häufigsten auftretende Wort in diesem Korpus wird als Vergleichsgrundlage verwendet. In der deutschen Schriftsprache ist dies das Wort der, in der englischen the („der/die/das“), in der schwedischen och („und“).

Das Zipfsche Gesetz dient dabei als Berechnungsgrundlage. Der Wert der Häufigkeitsklasse  berechnet sich dabei mit dem Logarithmus zur Basis 2 des Quotienten aus dem zu untersuchenden Wort und dem am häufigsten auftretenden Wort.

Die Gaußklammer rundet das Zwischenergebnis auf eine ganze Zahl ab. Zusammen mit dem addierten Wert 0,5 führt die Gaußklammer hier dazu, dass der Wert des Logarithmus auf die nächste ganze Zahl auf- oder abgerundet wird (dabei wird 0,5 aufgerundet zu 1).

Die so berechnete Häufigkeitsklasse  ist eine ganze Zahl, die ausdrückt, um wie viel Mal häufiger das häufigste Wort als das untersuchte Wort im ausgewerteten Datenbestand auftritt. Das am häufigsten vorkommende Wort selbst gehört der Häufigkeitsklasse 0 an, und i. A. ist es der einzige Vertreter dieser Klasse. Wörter, die etwa Mal so häufig wie dieses auftreten, werden in die Häufigkeitsklasse  eingeordnet. Daraus ergibt sich, dass ein Wort umso häufiger vorkommt, je kleiner seine Häufigkeitsklasse ist.

Größe der Häufigkeitsklassen, Rang

Nach dem Zipfschen Gesetz erwartet man, dass die Klasse  etwa Wörter (Types) enthält und dass die Summe ihrer Vorkommen (Tokens) in jeder Klasse ungefähr gleich ist, wobei diese Näherung für die obersten und untersten Klassen am wenigsten genau ist. Insbesondere erwartet man nach dem Zipfschen Gesetz für jedes Korpus, dass ungefähr die Hälfte aller auftretenden Wörter (Types) jeweils nur einmal vorkommt.

Aus dem Zipfschen Gesetz ergibt sich als erste Abschätzung, dass die Klasse 0 etwa = 1 Wort enthält, die Klasse 1 etwa = 2 Wörter, die Klasse 9 etwa = 512 Wörter usw.[1] In allen Klassen bis einschließlich zur Klasse 9 sind etwa 1000 Wörter enthalten. Die folgende Häufigkeitsklasse 10 umfasst damit diejenigen etwa 1000 Wörter, die in der Häufigkeit etwa auf Rang 1000 bis 2000 liegen; dies sind allerdings nur recht grobe Anhaltswerte.[2]

Wortformen und Lexeme

Häufigkeitsklassen können auf zwei linguistischen Ebenen betrachtet werden: Für eine einzelne Wortform (wie oben dargestellt) oder für ein gesamtes Lexem mit seinen verschiedenen Wortformen. Das am häufigsten vorkommende Wort, dessen Häufigkeit bei der Berechnung der Häufigkeitsklasse als Vergleichsgröße verwendet wird, sollte auf derselben linguistischen Ebene bestimmt sein: In der deutschen Schriftsprache ist die häufigste Wortform das Wort der und das häufigste Lexem der bestimmte Artikel (mit den flektierten Formen der, die, das, des, dem, den).

Siehe auch

Literatur

  • Helmut Meier: Deutsche Sprachstatistik. 2. Auflage. Olms, Hildesheim 1978, ISBN 978-3-487-00735-9.

Weblinks

Einzelnachweise

  1. Dies stimmt einigermaßen mit der Praxis überein: Laut den Untersuchungen der Uni Leipzig ist der Klasse 9 ein log(Anzahl der Wörter in HKL 9) von etwa 6,5 zugeordnet, es dürften sich somit etwa 700 Wörter in dieser Klasse befinden, siehe Grafik 'Anzahl der Wörter in den Häufigkeitsklassen' (Memento desOriginals vom 5. März 2016 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/wortschatz.uni-leipzig.de auf FAQ zum Wortschatz, Uni Leipzig (Memento desOriginals vom 12. November 2015 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/wortschatz.uni-leipzig.de.
  2. Verwendbar z. B. um die Angaben aus den Häufigkeitsabfragen besser deuten zu können.

Auf dieser Seite verwendete Medien

Personal pronouns.jpg
Autor/Urheber: Snježana Kordić , Lizenz: CC BY 3.0
Frequency of personal pronouns in Serbo-Croatian from Snježana Kordićʼs book Wörter im Grenzbereich von Lexikon und Grammatik im Serbokroatischen, Munich 2001, diagram on p. 12 or its Serbo-Croatian translation: Riječi na granici punoznačnosti, Zagreb 2002, diagram on p. 13