Normalverteilungsmodell

Als Normalverteilungsmodell[1] oder Gauß’sches Produktmodell[2] bezeichnet man in der Statistik ein spezielles statistisches Modell, das sich durch einfache Modellannahmen auszeichnet. Dabei soll einerseits die Erhebung der Daten stochastisch unabhängig voneinander sein, andererseits sollen die Daten alle normalverteilt sein, je nach Präzisierung mit einem oder zwei unbekannten Parametern.

Die Bedeutung des Normalverteilungsmodells ergibt sich sowohl aus der Tatsache, dass es ein sehr gut untersuchtes Modell ist, für das gute Parameterschätzer, Konfidenzintervalle und Tests angegeben werden können, als auch aus der Sonderstellung der Normalverteilung, die sich nach dem zentralen Grenzwertsatz immer dann einstellt, wenn sich viele, voneinander unabhängige zufällige Einflüsse überlagern.

Es lassen sich drei Fälle unterscheiden:

  • Man geht von einem bekannten Erwartungswert der Normalverteilungen aus und versucht, Aussagen über die Varianz zu treffen. Beispiel hierfür wäre die Eichung einer Waage mit einem vorgegebenen genormten Gewicht.
  • Man geht von einer bekannten Varianz der Normalverteilungen aus und versucht, Aussagen über den Erwartungswert zu treffen. Dieser Fall würde beispielsweise eintreten bei einer Messung mit einem Messinstrument bekannter Ungenauigkeit, die vom Hersteller angegeben ist.
  • Sowohl Varianz als auch Erwartungswert sind unbekannt. Ein Beispiel für diesen Fall wäre die Schätzung der Schuhgröße von Männern: Weder ist klar, welche Schuhgröße ein Mann „im Mittel“ hat, noch ist klar, wie sehr die Schuhgrößen streuen.

Für die drei Fälle stehen jeweils unterschiedliche Methoden zur Verfügung.

Erwartungswert bekannt und Varianz unbekannt

Bei bekanntem Erwartungswert und unbekannter Varianz werden die Rahmenbedingungen wie folgt formalisiert: Das statistische Modell ist gegeben durch

,

wobei die Verteilungsklasse genauer als

definiert ist. Hierbei ist der bekannte Erwartungswert. Mit sei das n-fache Produktmaß des Wahrscheinlichkeitsmaßes bezeichnet. Es handelt sich bei dem Modell folglich um ein einparametriges Modell und ein Produktmodell. Die Verteilungsklasse ist Teil der einparametrigen Exponentialfamilie, denn die Wahrscheinlichkeitsdichte der Normalverteilung besitzt eine Darstellung als

mit und .

Damit erhält man für die Wahrscheinlichkeitsdichte auf dem gesamten Raum die Darstellung

.

Geschätzt werden soll die unbekannte Varianz, die zu schätzende Parameterfunktion ist somit gegeben durch

.

Parameterschätzung

Sowohl die Maximum-Likelihood-Methode als auch die Momentenmethode liefern als Schätzer für die unbekannte Varianz die (nicht korrigierte)Stichprobenvarianz

.

Sie ist erwartungstreu. Die Suffizienz dieser Schätzfunktion folgt aus der Darstellung der Normalverteilung als Teil der Exponentialfamilie und der entsprechenden kanonischen Statistik. Außerdem ist der Schätzer auch vollständig[3] und somit nach dem Satz von Lehmann-Scheffé ein gleichmäßig bester erwartungstreuer Schätzer.

Konfidenzintervalle

Konfidenzintervalle für die unbekannte Varianz beruhen auf der Pivot-Statistik

.

Sie ist Chi-Quadrat-verteilt mit Freiheitsgraden, also . Ein beidseitiges Konfidenzintervall zum Konfidenzniveau ist somit gegeben durch[4]

.

Hierbei ist das -Quantil der Chi-Quadrat-Verteilung mit Freiheitsgraden. Die konkreten Werte der Quantile können in der Quantiltabelle der Chi-Quadrat-Verteilung nachgeschlagen werden.

Testen

Für Einstichprobenprobleme existiert der Chi-Quadrat-Test zur Prüfung einer Varianz, für Zweistichprobenprobleme der F-Test zum Vergleich zweier Varianzen.[5]

Varianz bekannt und Erwartungswert unbekannt

Ist die Varianz bekannt und der Erwartungswert unbekannt, so werden die Rahmenbedingungen wie folgt formalisiert: das statistische Modell gegeben durch

,

wobei die Verteilungsklasse genauer als

definiert ist. Hierbei bezeichnet die bekannte Varianz. Es handelt sich bei dem Modell folglich um ein einparametriges Modell und ein Produktmodell. Genauso ist die Verteilungsklasse ein Teil der einparametrigen Exponentialfamilie, denn die Wahrscheinlichkeitsdichte der Normalverteilung besitzt eine Darstellung als

mit und .

Damit erhält man für die Wahrscheinlichkeitsdichte auf dem gesamten Raum die Darstellung

Geschätzt werden soll der unbekannten Erwartungswert, die zu schätzende Parameterfunktion ist somit gegeben durch

.

Parameterschätzung

Sowohl die Maximum-Likelihood-Methode als auch die Momentenmethode liefern als Schätzfunktion für den Erwartungswert das Stichprobenmittel

der Stichprobe. Dabei folgt der Maximum-Likelihood-Schätzer beispielsweise durch Bestimmen des Maximums der Log-Likelihood-Funktion, der Momentenschätzer folgt direkt aus der Tatsache, dass es sich bei dem arithmetischen Mittel um das erste empirische Moment handelt und mit dem Erwartungswert das erste stochastische Moment geschätzt werden soll.

Der Schätzer ist erwartungstreu. Da es sich um außerdem um die kanonische Statistik der Exponentialfamilie handelt, ist er auch suffizient. Außerdem ist der Schätzer auch vollständig[3] und somit nach dem Satz von Lehmann-Scheffé ein gleichmäßig bester erwartungstreuer Schätzer.

Konfidenzintervalle

Die Konfidenzintervalle bei bekannter Varianz beruhen auf der Pivotstatistik[6]

.

Sie ist standardnormalverteilt, also für alle .

Es bezeichne das -Quantil der Standardnormalverteilung. Dieses kann der Quantiltabelle der Standardnormalverteilung entnommen werden. Dann ist ein rechtsseitig unbeschränktes Konfidenzintervall für den unbekannten Erwartungswert zum Konfidenzniveau gegeben durch

.

Analog ergibt sich ein linksseitig unbeschränktes Konfidenzintervall für den unbekannten Erwartungswert zum Konfidenzniveau durch

.

Ein zweiseitiges Konfidenzintervall zum Konfidenzniveau ist gegeben durch

.

Testen

Für Einstichprobenprobleme existiert der Einstichproben Gauß-Test und der Einstichproben-t-Test, für Zweistichprobenprobleme der Zweistichproben Gauß-Test.[5]

Varianz und Erwartungswert unbekannt

Sind Erwartungswert und Varianz unbekannt, so werden die Rahmenbedingungen wie folgt formalisiert: das statistische Modell ist gegeben durch

,

wobei die Verteilungsklasse genauer als

definiert ist. Es handelt sich hierbei dann um ein parametrisches Modell und ein Produktmodell. Die Verteilungsklasse ist Teil der zweiparametrigen Exponentialfamilie, da für die Wahrscheinlichkeitsdichte der Normalverteilung

mit und

gilt.

Geschätzt werden soll Erwartungswert und Varianz, die zu schätzenden Parameterfunktionen sind somit gegeben durch

und .

Parameterschätzung

Die Maximum-Likelihood-Methode und die Momentenmethode liefern als Schätzfunktion für den unbekannten Erwartungswert das Stichprobenmittel

.

Dieser Schätzer ist erwartungstreu.

Sowohl die Maximum-Likelihood-Methode und die Momentenmethode liefern die (nicht korrigierte)Stichprobenvarianz

als Schätzfunktion für die unbekannte Varianz. Sie ist nicht erwartungstreu, sondern nur asymptotisch Erwartungstreu. Daher führt man die Bessel-Korrektur ein und erhält somit als erwartungstreuen Schätzer die korrigierte Stichprobenvarianz

.

Sie ist eine erwartungstreue Schätzfunktion für die unbekannte Varianz.

Konfidenzintervalle

Konfidenzintervalle für den Erwartungswert, also für , beruhen in diesem Modell auf der Pivotstatistik[6]

,

wobei

ist. Als einseitiges Konfidenzintervall für den Erwartungswert zum Konfidenzniveau erhält man damit

,

als zweiseitiges Konfidenzintervall für den Erwartungswert zum Konfidenzniveau erhält man

Hierbei ist das -Quantil der Studentschen t-Verteilung mit n Freiheitsgraden. Die konkreten Werte der Quantile können in der Quantiltabelle der Studentschen t-Verteilung nachgeschlagen werden.

Konfidenzintervalle für die Varianz, also für , beruhen auf der Pivotstatistik[6]

.

Sie liefert das einseitige Konfidenzintervall für die Varianz zum Konfidenzniveau

,

und das zweiseitige Konfidenzintervall für die Varianz zum Konfidenzniveau

Hierbei ist das -Quantil der Chi-Quadrat-Verteilung mit Freiheitsgraden. Die konkreten Werte der Quantile können in der Quantiltabelle der Chi-Quadrat-Verteilung nachgeschlagen werden.

Testen

Für Einstichprobenprobleme existiert für die Varianz der Chi-Quadrat-Test zur Prüfung einer Varianz. Für Zweistichprobenprobleme existiert für die Varianz der F-Test zum Vergleich zweier Varianzen, für den Erwartungswert siehe Behrens-Fisher-Problem.[5]

Einzelnachweise

  1. Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 96, doi:10.1007/978-3-642-41997-3.
  2. Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 205, doi:10.1515/9783110215274.
  3. a b Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 110–111, doi:10.1007/978-3-642-41997-3.
  4. Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1, S. 143–144, doi:10.1007/978-3-642-17261-8.
  5. a b c Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 196, doi:10.1007/978-3-642-41997-3.
  6. a b c Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 231–232, doi:10.1007/978-3-642-41997-3.