Empirische Varianz

Die empirische Varianz,[1] auch Stichprobenvarianz[2] (veraltet: empirisches Streuungsquadrat) oder einfach nur kurz Varianz (lateinisch variantia = „Verschiedenheit“ bzw. variare = „(ver)ändern, verschieden sein“) genannt, ist eine statistische Angabe für die Streubreite von Werten einer Stichprobe und in der deskriptiven Statistik eine Kennzahl einer Stichprobe. Sie gehört zu den Streuungsmaßen und beschreibt die mittlere quadratische Abweichung der einzelnen Messwerte vom empirischen Mittelwert. Sie stellt damit eine Art durchschnittliches Abweichungsquadrat dar. Die positive Wurzel der empirischen Varianz ist die empirische Standardabweichung. Die empirische Standardabweichung stellt das gebräuchlichste Streuungsmaß dar.

Die Begriffe „Varianz“, „Stichprobenvarianz“ und „empirische Varianz“ werden in der Literatur nicht einheitlich verwendet. Im Allgemeinen muss unterschieden werden zwischen der

Eine genaue Abgrenzung und Zusammenhänge finden sich im Abschnitt Beziehung der Varianzbegriffe.

Definition

Motivation

Die Varianz einer endlichen Grundgesamtheit der Größe ist ein Maß für die Streuung der einzelnen -Werte, um den Populationsmittelwert und ist definiert als

mit dem Populationsmittelwert .

Da sie in praktischen Situationen unbekannt ist und dennoch berechnet werden muss, wird oft die empirische Varianz herangezogen. Dies ist vor allem notwendig, wenn es in großen Populationen nicht möglich ist, jedes einzelne Subjekt in der Population zu zählen.

Definition

Gegeben sei eine Stichprobe mit Elementen . Es bezeichne

den empirischen Mittelwert der Stichprobe. Dieser empirische Mittelwert ist ein Schätzer für den Populationsmittelwert . Die empirische Varianz kann auf zweierlei Arten definiert werden. Entweder wird die empirische Varianz der Stichprobe definiert als Summe der Abweichungsquadrate geteilt durch die Anzahl der Messwerte:

,[3]

oder sie wird als leicht modifizierte Form definiert als Summe der Abweichungsquadrate geteilt durch die Anzahl der Freiheitsgrade

.[2]

Erläuterung

Die empirische Varianz stellt damit eine Art „mittleres Abweichungsquadrat“ dar. Sie ist ein Schätzer für die Populationsvarianz . Direkt aus der Definition folgen die Darstellungen

beziehungsweise .

Diese leicht modifizierte Form wird oft auch als Stichprobenvarianz bezeichnet und wird von Programmpaketen, wie z. B. SPSS, R etc., bevorzugt. Falls die Stichprobe keinerlei Variabilität aufweist, d. h. , dann ergibt sich eine Varianz von . Intuitiv lässt sich die Mittelung durch statt durch bei der modifizierten Form der empirischen Varianz wie folgt erklären: Aufgrund der Schwerpunkteigenschaft des empirischen Mittels ist die letzte Abweichung bereits durch die ersten bestimmt. Folglich variieren nur Abweichungen frei und man mittelt deshalb, indem man durch die Anzahl der Freiheitsgrade dividiert.[4]

Wird nur von „der“ empirischen Varianz gesprochen, so muss darauf geachtet werden, welche Konvention beziehungsweise Definition im entsprechenden Kontext gilt. Weder die Benennung der Definitionen noch die entsprechende Notation ist in der Literatur einheitlich, jedoch wird häufig der Begriff empirische Varianz für die unmodifizierte Form und der Begriff Stichprobenvarianz für die modifizierte Form verwendet. Es finden sich für auch die Notation , hingegen wird auch mit oder bezeichnet. Manche Autoren bezeichnen als mittlere quadratische Abweichung vom empirischen Mittelwert[5] und als theoretische Varianz oder induktive Varianz im Gegensatz zu als empirische Varianz.[6]

wird als erwartungstreue Stichprobenvarianz (und als verzerrte Stichprobenvarianz) bezeichnet, weil ein erwartungstreuer Schätzer für die Varianz ist.[7]

Empirische Varianz für Häufigkeitsdaten

Die empirische Standardabweichung ist ebenfalls ein Maß dafür, wie weit die Stichprobe im Schnitt um den empirischen Mittelwert streut. Sei die absolute Häufigkeit der Ausprägungen und damit die Anzahl der Werte für die gilt, also . Sei weiter die relative Häufigkeit von , d. h. der Anteil der Werte für die gilt. Die absolute Häufigkeitsverteilung und die relative Häufigkeitsverteilung fasst man oft in einer Häufigkeitstabelle zusammen. Die Ausprägungen zusammen mit den Häufigkeiten bzw. werden auch als Häufigkeitsdaten bezeichnet. Für Häufigkeitsdaten mit den Ausprägungen und relativen Häufigkeiten wird die empirische Varianz wie folgt berechnet

,[8]

mit .

Rechenregeln

Verhalten bei Transformationen

Die Varianz verändert sich nicht bei Verschiebung der Daten um einen konstanten Wert c, also und , so ist

sowie .[9]

Werden um einen Faktor skaliert, also , so gilt

sowie .[10]

Alternative Darstellungen

Als durchschnittliches Abweichungsquadrat

Die Varianz wird in der Varianzanalyse oft als „mittleres“ bzw. „durchschnittliches“ Abweichungsquadrat bezeichnet[11]

.[12]

Die mittleren Abweichungsquadrate der jeweiligen Variablen werden in einer sogenannten Varianzanalysetabelle zusammengefasst.

Darstellung mittels Verschiebungssatz

Eine weitere Darstellung erhält man aus dem Verschiebungssatz, nach dem

gilt. Durch Multiplikation mit erhält man daraus[13]

,

woraus

folgt.

Darstellung ohne empirisches Mittel

Eine weitere Darstellung, die ohne die Verwendung des empirischen Mittels auskommt, ist

bzw.

.

Wenn man das arithmetische Mittel der Beobachtungswerte in den Summanden der Doppelsumme

addiert und abzieht (also Null einfügt), dann gilt

.

Dies ist äquivalent zu

.

Abgeleitete Begriffe

Empirische Standardabweichung

Als empirische Standardabweichung[14] auch Stichprobenstreuung[15] oder Stichprobenstandardabweichung[14] genannt, wird die positive Wurzel aus der empirischen Varianz bezeichnet, also[15][16]

oder

.

Im Gegensatz zur empirischen Varianz besitzt die empirische Standardabweichung dieselben Einheiten wie der empirische Mittelwert oder die Stichprobe selbst. Wie auch bei der empirischen Varianz ist die Benennung und Bezeichnung bei der empirischen Standardabweichung nicht einheitlich. Die empirische Standardabweichung sollte von der Standardabweichung im Sinne der Wahrscheinlichkeitstheorie unterschieden werden. Diese ist eine Kennzahl einer Wahrscheinlichkeitsverteilung oder der Verteilung einer Zufallsvariable, wohingegen die empirische Standardabweichung Kennzahl einer Stichprobe ist.

Empirischer Variationskoeffizient

Der empirische Variationskoeffizient ist ein dimensionsloses Streuungsmaß und ist definiert als die empirische Standardabweichung geteilt durch den empirischen Mittelwert, also

Im Gegensatz zur Standardabweichung ist ein dimensionsloses Streumaß und damit nicht einheitenbehaftet.[17] Sein Vorteil liegt darin, dass er in Prozent des empirischen Mittelwerts ausdrückt.[18]

Beispiel

Gegeben sei die Stichprobe

,

es ist also . Für den empirischen Mittelwert ergibt sich

.

Bei stückweiser Berechnung ergibt sich dann

.

Über die erste Definition erhält man

wohingegen die zweite Definition

,

liefert. Mithilfe des obigen Beispiel für die Varianz lässt sich auch die Standardabweichung berechnen. Dies geschieht durch einfaches Wurzelziehen. Bestimmt man die unkorrigierte Stichprobenvarianz, so ist (nach der 1. Definition)

.

Bestimmt man die empirische Standardabweichung jedoch über die korrigierte Stichprobenvarianz, so ist (nach der 2. Definition)

.

Herkunft der verschiedenen Definitionen

Die Definition von entspricht der Definition der empirischen Varianz als die mittlere quadratische Abweichung vom empirischen Mittel.[5] Diese basiert auf der Idee, ein Streuungsmaß um den empirischen Mittelwert zu definieren. Es sei . Ein erster Ansatz ist, die Differenz der Messwerte vom empirischen Mittel aufzusummieren. Dies führt zu

Dies ergibt allerdings stets 0, weil sich positive und negative Summanden gegenseitig aufheben (Schwerpunkteigenschaft), ist also nicht geeignet zur Quantifizierung der Varianz. Um einen Wert für die Varianz größer oder gleich 0 zu erhalten, kann man beispielsweise mit den Beträgen der Differenzen rechnen, also die Summe der absoluten Abweichungen

betrachten, oder aber quadrieren, also die Quadratsumme

bilden. Dies hat allerdings den Nebeneffekt, dass größere Abweichungen vom empirischen Mittelwert stärker gewichtet werden. Dadurch schlagen auch einzelne Ausreißer stärker zu Buche. Um das Streuungsmaß unabhängig von der Anzahl der Messwerte in der Stichprobe zu machen, wird noch durch diese Anzahl dividiert. Ergebnis dieses pragmatisch hergeleiteten Streuungsmaßes ist die mittlere quadratische Abweichung vom empirischen Mittelwert oder die oben definierte Varianz .

Die Definition von hat ihre Wurzeln in der Schätztheorie. Dort wird

als erwartungstreue Schätzfunktion für die unbekannte Varianz einer Wahrscheinlichkeitsverteilung verwendet. Dies gilt aufgrund folgenden Satzes: Seien unabhängig und identisch verteilte Zufallsvariablen mit und , dann gilt . Daher ist also ein Schätzer für die unbekannte Populationsvarianz .

Geht man nun von den Zufallsvariablen zu den Realisierungen über, so erhält man aus der abstrakten Schätzfunktion den Schätzwert . Das Verhältnis von zu entspricht somit dem Verhältnis einer Funktion zu ihrem Funktionswert an einer Stelle .

Somit kann als ein praktisch motiviertes Streuungsmaß in der deskriptiven Statistik angesehen werden, wohingegen eine Schätzung für eine unbekannte Varianz in der induktiven Statistik ist. Diese unterschiedlichen Ursprünge rechtfertigen die oben angeführte Sprechweise für als empirische Varianz und für als induktive Varianz oder theoretische Varianz. Zu bemerken ist, dass sich auch als Schätzwert einer Schätzfunktion interpretieren lässt. So erhält man bei Anwendung der Momentenmethode als Schätzfunktion für die Varianz

.

Ihre Realisierung entspricht . Jedoch wird meist nicht verwendet, da sie gängige Qualitätskriterien nicht erfüllt. Dieser Schätzer ist nicht erwartungstreu, wegen

.

Beziehung der Varianzbegriffe

Wie in der Einleitung bereits erwähnt, existieren verschiedene Varianzbegriffe, die teils denselben Namen tragen. Ihre Beziehung zueinander wird klar, wenn man ihre Rolle in der Modellierung der induktiven Statistik betrachtet:

Zentral ist der Unterschied zwischen der Schätzmethode (Stichprobenvarianz im Sinne der induktiven Statistik) und ihrer konkreten Schätzung (empirische Varianz). Sie entspricht dem Unterschied zwischen einer Funktion und ihrem Funktionswert.

Annualisierte Varianz

In der Finanzmarkttheorie werden oft Varianzen bzw. Volatilitäten von Renditen berechnet. Diese Varianzen müssen, wenn sie auf täglichen Daten beruhen annualisiert werden, d. h. auf ein Jahr hochgerechnet werden. Dies geschieht mittels eines Annualisierungfaktors (pro Jahr gibt es etwa Handelstage). Die Volatilität lässt sich somit schätzen als Wurzel aus der annualisierten Varianz

.

Einzelnachweise

  1. Norbert Henze: Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6, S. 31, doi:10.1007/978-3-658-03077-3.
  2. a b Ehrhard Behrends: Elementare Stochastik. Ein Lernbuch – von Studierenden mitentwickelt. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0, S. 274, doi:10.1007/978-3-8348-2331-1.
  3. Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, S. 56, doi:10.1007/978-3-8349-4748-2.
  4. Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 65
  5. a b Helge Toutenburg, Christian Heumann: Deskriptive Statistik. 6. Auflage. Springer-Verlag, Berlin/Heidelberg 2008, ISBN 978-3-540-77787-8, S. 75, doi:10.1007/978-3-540-77788-5.
  6. Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, S. 255, doi:10.1007/978-3-8349-4748-2.
  7. Kapitel 10: Erwartungstreue Schätzer (PDF-Datei), www.alt.mathematik.uni-mainz.de, abgerufen am 31. Dezember 2018
  8. Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 65.
  9. Es ist und somit
    , woraus die Behauptung folgt.
  10. Dies folgt wie oben durch direktes Nachrechnen.
  11. Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 109.
  12. Lothar Sachs: Statistische Auswertungsmethoden, S. 400.
  13. Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben. 6. Auflage. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0, S. 122, doi:10.1007/978-3-658-13640-6.
  14. a b Norbert Henze: Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6, S. 31–32, doi:10.1007/978-3-658-03077-3.
  15. a b Ehrhard Behrends: Elementare Stochastik. Ein Lernbuch – von Studierenden mitentwickelt. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0, S. 274–275, doi:10.1007/978-3-8348-2331-1.
  16. Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 109.
  17. Norbert Henze: Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6, S. 33, doi:10.1007/978-3-658-03077-3.
  18. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 123.