Verzerrung durch ausgelassene Variablen

In der Statistik tritt eine Verzerrung durch ausgelassene Variablen, auch Verzerrung aufgrund von ausgelassenen Variablen (englisch Omitted Variable Bias, kurz OVB) auf, wenn eine oder mehrere relevante Variable(n) bzw. Regressor(en) nicht berücksichtigt wird (werden).^[1] Hierbei ist eine relevante Variable eine Variable, die einen von null verschiedenen partiellen (wahren) Effekt auf die Antwortvariable aufweist, also eine Variable, die im wahren Modell Einfluss auf die Antwortvariable hat. Die Variablen, für die man eigentlich kontrollieren will, die aber bei der Schätzung eines Regressionsmodells ausgelassen wurden, werden ausgelassene Variablen genannt. Die mögliche Folge des Weglassens einer oder mehrerer relevanter Variablen ist ein verzerrter und inkonsistenter Schätzer für den Effekt des Interesses.

Falls das (mit der Kleinste-Quadrate-Schätzung geschätzte) Regressionsmodell fehlspezifiziert wurde und eine relevante erklärende Variable in der Regressionsgleichung ausgelassen wurde kommt es zu einer Verzerrung der Kleinste-Quadrate-Schätzer. Im Allgemeinen tritt eine Verzerrung ein, falls:

die ausgelassene Variable mit einer im Modell berücksichtigten Variablen korreliert ist und
wenn die ausgelassene Variable die Antwortvariable bestimmt

Die Verzerrung bei den Kleinste-Quadrate-Schätzern entsteht, weil das Modell versucht, die fehlenden relevanten Variablen dadurch zu kompensieren, dass es die Effekte der anderen erklärenden Variablen über- oder unterschätzt. In der Praxis existiert meist eine Austauschbeziehung zwischen einer Verzerrung durch ausgelassene Variablen und dem Problem des Vorliegens von Multikollinearität. Eine mögliche Lösung stellt die Verwendung von Instrumentvariablen dar.

Ausgangslage

Gegeben ein typisches multiples lineares Regressionsmodell $\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ , mit ${\boldsymbol {\beta }}$ dem $p\times 1$ Vektor der unbekannten Regressionsparameter, der $n\times p$ Versuchsplanmatrix $\mathbf {X}$ , dem $n\times 1$ Vektor der abhängigen Variablen $\mathbf {y}$ und dem $n\times 1$ Vektor der Fehlerterme ${\boldsymbol {\varepsilon }}$ . Des Weiteren wird angenommen, dass die Fehlerterme im Mittel null sind: $\operatorname {E} [{\boldsymbol {\boldsymbol {\varepsilon }}}]=\mathbf {0}$ . Das bedeutet, es kann davon ausgegangen werden, dass das Modell im Mittel korrekt ist.

Man betrachte folgende Situation:

Der wahre datengenerierende Prozess sei:

\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+\mathbf {Z} {\boldsymbol {\gamma }}+{\boldsymbol {\varepsilon }},\quad {\boldsymbol {\varepsilon }}\sim {\mathcal {N}}(\mathbf {0} ,\sigma ^{2}\mathbf {I} )

mit

{\boldsymbol {\gamma }}\neq 0

Der fehlspezifizierte datengenerierende Prozess sei:

\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}^{*},\quad {\boldsymbol {\varepsilon }}^{*}=\mathbf {Z} {\boldsymbol {\gamma }}+{\boldsymbol {\varepsilon }}

Obwohl das volle Modell korrekt ist, wird fälschlicherweise das reduzierte Modell geschätzt. In diesem Fall werden unzutreffend die relevanten Variablen $\mathbf {Z}$ (diese Variablen sind relevant, weil für den wahren Parameter gilt ${\boldsymbol {\gamma }}\neq 0$ ) vernachlässigt. Diese ausgelassenen Variablen wandern in eine neu definierte stochastische Störgröße, weil sie zwar relevant sind, aber dennoch nicht im Modell berücksichtigt werden. Im Falle von ausgelassenen Variablen ist der Kleinste-Quadrate-Schätzer $\mathbf {b}$ im Allgemeinen verzerrt (Verzerrung durch ausgelassene Variablen). Eine Ausnahme liegt vor, wenn $\mathbf {X}$ und $\mathbf {Z}$ orthogonal sind, d. h. jede Variable in $\mathbf {X}$ ist mit jeder Variablen in $\mathbf {Z}$ unkorreliert. Darüber hinaus zeigen die Komponenten des Schätzers vom reduzierten Modell eine kleinere Varianz als die entsprechenden Komponenten des Schätzers basierend auf dem wahren Modell.^[1]

Effekte der Modellspezifikation

Verzerrung des Kleinste-Quadrate-Schätzers

Falls man das reduzierte Modell schätzt, in Wirklichkeit das wahre Modell aber das volle Modell ist, dann ergibt sich wegen

{\begin{aligned}\operatorname {E} (\mathbf {b} )&=\operatorname {E} ((\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {y} )\\&=\operatorname {E} ((\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }(\mathbf {X} {\boldsymbol {\beta }}+\mathbf {Z} {\boldsymbol {\gamma }}+{\boldsymbol {\varepsilon }}))\\&=\operatorname {E} ((\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {X} {\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\mathbf {Z} }}{\boldsymbol {\gamma }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}))={\boldsymbol {\beta }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }{\boldsymbol {\mathbf {Z} }}{\boldsymbol {\gamma }}+(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\underbrace {\operatorname {E} (\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }})} _{=\mathbf {0} }\\&={\boldsymbol {\beta }}+\underbrace {(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {Z} {\boldsymbol {\gamma }}} _{\text{Verzerrung}}\end{aligned}}

ein systematischer Fehler im Umfang von $(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {Z} {\boldsymbol {\gamma }}$ .

Verzerrung des Varianzschätzers

Durch die ausgelassenen Variablen ist der Varianzschätzer für die wahre Varianz der Störgrößen verzerrt. Die Unsicherheit bzgl. der Schätzung der Störgrößen steigt also und die Varianz kann nicht mehr erwartungstreu geschätzt werden. Für die Verzerrung der Varianz gilt

\operatorname {Bias} ({\hat {\sigma }}^{2})=\operatorname {E} ({\hat {\sigma }}^{2})-\sigma ^{2}={\frac {{\boldsymbol {\gamma }}^{\top }\mathbf {Z} ^{\top }\mathbf {M} \mathbf {Z} {\boldsymbol {\gamma }}}{T-K}}\geq 0

,

d. h. im Mittel wird die Varianz der Störgrößen systematisch überschätzt. Da der systematische Fehler im Zähler eine quadratische Form hat, ist er positiv.

Verzerrung der Residuen

Durch das Auslassen relevanter Variablen sind die Residuen nicht mehr um Null zentriert

\operatorname {E} ({\boldsymbol {\varepsilon }}^{*})\neq 0

,

Dies lässt sich so interpretieren, dass im Mittel nicht mehr das wahre Modell geschätzt wird.

Siehe auch

Einzelnachweise

↑ ^a ^b Peter Hackl: Einführung in die Ökonometrie. 2. aktualisierte Auflage, Pearson Deutschland GmbH, 2008., ISBN 978-3-86894-156-2, S. 105.ff.

[:0-1] Peter Hackl: Einführung in die Ökonometrie. 2. aktualisierte Auflage, Pearson Deutschland GmbH, 2008., ISBN 978-3-86894-156-2, S. 105.ff.

[1]

Navigation