Prognoseintervall

In der Inferenzstatistik ist ein Prognoseintervall (auch Vorhersageintervall oder Prädiktionsintervall) ein Bereich um die Vorhersage eines Modells, in dem eine zukünftige Realisierung einer Messung mit hoher Wahrscheinlichkeit (z. B. 95 %) anzutreffen ist.

Prognoseintervalle ähneln Konfidenzintervallen, sind jedoch aufgrund ihrer Eigenschaften nicht mit ihnen zu verwechseln. Beispielsweise beschreibt das Konfidenzintervall für einen Schätzer des bedingten Erwartungswertes ${\hat {E}}[Y|X=x]={\hat {Y}}$ , wie unsicher dieser Erwartungswert-Schätzer ist. Das Prognoseintervall beschreibt dagegen die Streuung des Prognosefehlers, weswegen ${\hat {Var}}[(Y-{\hat {Y}})|X=x]$ von zentraler Bedeutung ist.

Vorhersageintervalle können gegebenenfalls mit dem Standardfehler der Regression berechnet werden.

Aus dem Verzerrung-Varianz-Dilemma folgt, dass $Var[(Y-{\hat {Y}})|X=x]$ nicht kleiner sein kann als die Streuung $\sigma ^{2}=Var[Y|X=x]$ der Messwerte selbst. Für eine erwartungstreue Schätzung dieser Varianz ${\hat {Var}}[(Y-{\hat {Y}})|X=x]$ folgt daher, dass sie ebenfalls nicht kleiner als $\sigma ^{2}=Var[Y|X=x]$ sein kann. Daher bedeutet das für korrekt kalibrierte Prognoseintervalle, dass ihre Minimalgröße durch die Breite der Verteilung der Messwerte $Y$ vorgegeben ist.

Das Prognoseintervall ist vom Toleranzintervall abzugrenzen.

Einfaches Beispiel

Gegeben sei ein sechsseitiger Würfel mit Augenzahlen 1 bis 6. Das Konfidenzintervall für den geschätzten Erwartungswert der Augenzahl wird um 3,5 liegen und mit mehr Stichproben enger werden. Das Prognoseintervall für den nächsten Wurf wird jedoch näherungsweise von 1 bis 6 reichen, auch bei beliebig vielen bisher gesehenen Stichproben.

Lineares Modell

Modell

In der multiplen linearen Regression ergibt sich das Prognosemodell durch

\mathbf {y} _{0}=\mathbf {X} _{0}{\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}_{0}

,

wobei

$\mathbf {y} _{0}$ den Vektor zukünftiger abhängiger Variablen darstellt und
$\mathbf {X} _{0}$ die Matrix der erklärenden Variablen zum Zeitpunkt $T_{0}$ .

Die Prognose wird dargestellt als ${\hat {\mathbf {y} }}_{0}=\mathbf {X} _{0}\mathbf {b}$ .

Prognoseintervall

Wichtig für die Berechnung eines Prognoseintervalls ist die Varianz des Prognosefehlers, welche die Variation des Prognosefehlers und somit die Zuverlässigkeit der Prognose wiedergibt.

Sie ist in der linearen Einfachregression gegeben durch:

\sigma _{0}^{2}=\operatorname {Var} ({\hat {y}}_{0}-y_{0})=\sigma ^{2}\left(1+{\frac {1}{n}}+{\frac {(x_{0}-{\bar {x}})^{2}}{\sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\right)

.

Mithilfe der Varianz des Prognosefehlers erhält man dann als $(1-\alpha )$ -Prognoseintervall für den prognostizierten Wert von $y_{0}$ ^[1]^[2]

{\hat {y}}_{0}\pm t_{(1-\alpha /2,n-2)}\cdot {\sqrt {{\hat {\operatorname {Var} }}({\hat {y}}_{0}-y_{0})}}={\hat {y}}_{0}\pm t_{(1-\alpha /2,n-2)}\cdot {\sqrt {{\hat {\sigma }}^{2}\left(1+{\frac {1}{n}}+{\frac {(x_{0}-{\bar {x}})^{2}}{\sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\right)}}

.

Beachte, dass die Breite des Prognoseintervalls an den Rändern des Trägers der Trainingsdaten typischerweise zunimmt, da nicht nur die konstante Varianz der Residuuen ${\hat {\sigma }}^{2}$ einfließt, sondern auch die Unsicherheit bei der Schätzung des Modells. Letztere ist an den Rändern typischerweise größer.

Bootstrap

Bootstrapping^[3] kann zum Erzeugen mehrerer Regressionsmodelle benutzt werden, deren Streuung und Residuen dann zur Konstruktion von Bootstrap-Prognoseintervallen verwendet werden können.

Bayessches Prognoseintervall

Die Posterior predictive distribution kann zur Konstruktion von Bayesschen Prognoseintervallen verwendet werden.^[4]

Conformal Prediction

Conformal prediction kann unter Annahme von Austauschbarkeit zur Konstruktion von Prognoseintervallen benutzt werden. Konforme Punkte sind jene Punkte, welche „ähnlich“ zu den bisher beobachteten Punkten sind. Bei der Split Conformal Prediction^[5] wird der Datensatz in einen Trainings- und Validierungsdatensatz aufgeteilt. Die Non-conformity wird beispielsweise mit der absoluten Abweichung vom (angepassten) Modell gemessen: je größer die Abweichung eines Punktes umso weniger konform ist dieser Punkt. Die Non-conformity wird für alle Punkte im Validierungsdatensatz ermittelt. Für einen neuen Testpunkt $(x_{i},y)$ werden alle möglichen $y$ durchgetestet (eventuell diskretisiert). Das 95% Prognoseintervall ist dann jene Menge von y-Werten, bei denen der Non-conformity Score des Test-Punktes einen kleineren Rang in der aufsteigend sortierten Liste der Non-conformity Scores des Validierungsdatensatz hatte als 95 % der Validierungspunkte.

Quantilsregression

Werden das 97.5 und das 2.5 Quantil geschätzt, so kann daraus ein 95%-Prognoseintervall konstruiert werden.

Einzelnachweise

↑ Von Auer: Ökonometrie. Eine Einführung. 6. Auflage, S. 135.
↑ L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer 2016, S. 448.
↑ Stine, Robert A. “Bootstrap Prediction Intervals for Regression.”, Journal of the American Statistical Association, vol. 80, no. 392, 1985, pp. 1026–31. JSTOR, abgerufen am 27. Januar 2025.
↑ Agresti, A. (2015). Foundations of Linear and Generalized Linear Models. Deutschland: Wiley, Seite 339. Die Seite wird von books.google.de nicht immer angezeigt, am 27. Januar 2025.
↑ Xing Han, Ziyang Tang, Joydeep Ghosh, Qiang Liu: Split Localized Conformal Prediction, arxiv.org, 2022.

[1] Von Auer: Ökonometrie. Eine Einführung. 6. Auflage, S. 135.

[2] L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer 2016, S. 448.

[3] Stine, Robert A. “Bootstrap Prediction Intervals for Regression.”, Journal of the American Statistical Association, vol. 80, no. 392, 1985, pp. 1026–31. JSTOR, abgerufen am 27. Januar 2025.

[4] Agresti, A. (2015). Foundations of Linear and Generalized Linear Models. Deutschland: Wiley, Seite 339. Die Seite wird von books.google.de nicht immer angezeigt, am 27. Januar 2025.

[5] Xing Han, Ziyang Tang, Joydeep Ghosh, Qiang Liu: Split Localized Conformal Prediction, arxiv.org, 2022.

[1]

[2]

[3]

[4]

[5]

Navigation

Navigation

Themenportale

Prognoseintervall

Inhaltsverzeichnis

Einfaches Beispiel

Lineares Modell

Modell

Prognoseintervall

Bootstrap

Bayessches Prognoseintervall

Conformal Prediction

Quantilsregression

Einzelnachweise