Hauptkomponentenregression
Die Hauptkomponentenregression (englisch principal component regression, kurz PCR) ist ein spezielles regressionsanalytisches Verfahren, das auf der Hauptkomponentenanalyse (PCA) basiert.
Normalerweise wird bei einer Regression versucht, eine abhängige Variable durch eine Menge an unabhängigen Variablen zu erklären, z. B. basierend auf einem einfachen linearen Regressionsmodell. Die PCR verwendet die PCA, um in einem Zwischenschritt die Regressionskoeffizienten zu schätzen.
Die PCR ist u. a. nützlich, wenn die Datenmatrix ein hohes Maß an Multikollinearität aufweist.
Allgemeines Vorgehen
Die Hauptkomponentenregression kann grob in drei Schritte unterteilt werden:
- Durchführung einer PCA auf der Datenmatrix der erklärenden Variablen, um Hauptkomponenten zu extrahieren. Von diesen wird üblicherweise mittels eines geeigneten Auswahlkriteriums nur eine Teilmenge für die weitere Analyse ausgewählt.
- Die beobachteten Werte der abhängigen Variablen werden nun mit diesen ausgewählten Hauptkomponenten regressiert. Dazu wird eine gewöhnliche Kleinste-Quadrate-Schätzung verwendet. Es ergibt sich ein Vektor geschätzter Regressionskoeffizienten (mit der Anzahl der ausgewählten Hauptkomponenten als Dimension).
- Im letzten Schritt wird dieser Vektor zurücktransformiert, um einen Bezug zu den Ursprungsvariablen herzustellen. Dies geschieht über die PCA-Ladungen (Eigenwerte der ausgewählten Hauptkomponenten). So erhält man den finalen PCR-Schätzer, dessen Dimension wieder der Anzahl aller unabhängiger Variablen entspricht.
Die Partielle Kleinste-Quadrate-Regression bietet gegenüber der Hauptkomponentenregression den Vorteil, dass nicht nur die Variation im Eingaberaum betrachtet wird, sondern zusätzlich die Korrelation der Eingabe mit der Ausgabe.
Literatur
- Tormod Næs & Harald Martens (1988). Principal component regression in NIR analysis: viewpoints, background details and selection of components. Journal of Chemometrics 2(2), S. 155–167, doi:10.1002/cem.1180020207.
- Jon M. Sutter, John H. Kalivas & Patrick M. Lang. Which principal components to utilize for principal component regression. Journal of Chemometrics 6(4) 1992, S. 217–225, doi:10.1002/cem.1180060406.
- Faber, Klaas & Bruce R. Kowalski (1997). Propagation of measurement errors for the validation of predictions obtained by principal component regression and partial least squares. Journal of Chemometrics 11(3), S. 181–238, doi:10.1002/(SICI)1099-128X(199705)11:3<181::AID-CEM459>3.0.CO;2-7.
- Ian T. Jolliffe. A note on the use of principal components in Regression (1982). Applied Statistics 31(3), S. 300–303, JSTOR:2348005.
- R. X. Liu, J. Kuang, Q. Gong & X. L. Hou (2003). Principal component regression analysis with SPSS. Computer Methods and Programs in Biomedicine 71(2), S. 141–147, doi:10.1016/S0169-2607(02)00058-5.