Proxy-Variable

Eine Proxy-Variable (von lat.: proximus „der Nächste“) oder kurz einfach nur ein Proxy ist eine Stellvertreter-Variable, mithin eine Ersatzgröße, durch deren Messung man sich mittelbar Auskunft über eine andere Eigenschaft zu verschaffen versucht, die selbst einer Messung nicht ohne Weiteres zugänglich ist – jedenfalls nicht objektiv, nicht reliabel, nicht valide oder nicht mit vertretbarem Aufwand. Die Ergebnisse der Messung der Proxy-Variablen sollen also dabei helfen, eine Abschätzung über andere Variablen zu gewinnen. Wichtig ist zu beachten, dass die über Proxy-Variablen gewonnenen Messwerte nur eine ungefähre, innerhalb einer gewissen Streubreite liegende, Aussage über die Zielgröße erlauben. Wie groß diese Streubreite ist, darüber kann eine Korrelationsanalyse Auskunft geben.

Dies bedeutet andererseits, dass zwar die Bestimmung der Proxy-Variablen unter Umständen mit sehr hoher Güte und Genauigkeit vorgenommen werden kann, dies aber über die so erlangte Genauigkeit der Bestimmung der eigentlich zu messenden Variablen nichts aussagt. Entscheidend ist hier die Korrelation zwischen der Proxy-Variablen und der eigentlichen Zielvariablen.

Auf dem medizinischen Gebiet ist der Begriff des Surrogatmarkers nahe verwandt, mit dem man die Wirkung einer Therapie zu objektivieren versucht.

Beispiele für Proxy-Variablen

Probleme

Am letztgenannten Beispiel soll die Problematik der Proxy-Variablen näher erläutert werden. Die eigentliche Zielgröße ist z. B. die Fähigkeit einer Person zur Teilnahme am Straßenverkehr unter Alkoholeinfluss. Die bestmögliche Variable für deren Einschätzung wäre eigentlich die Alkoholkonzentration an den entsprechenden Stellen des Gehirns, die selbstverständlich nicht messbar ist (wobei aufgrund der interindividuellen Streubreite nicht einmal dieser Parameter eine völlig zuverlässige Aussage über die Verkehrstauglichkeit erlauben würde). Ersatzweise, also als Proxy-Variable, kommt die Alkoholkonzentration im Blut in Betracht: deutlich einfacher zu bestimmen, aber hinsichtlich der Zielgröße „Straßenverkehrstauglichkeit“ nicht ganz so zuverlässig; verantwortlich dafür sind die von Mensch zu Mensch unterschiedlichen Verteilungs- und Abbauvorgänge im Körper. Ersatzweise hierfür wiederum, also als Proxy-Variable der Proxy-Variablen, kommt schließlich die Atemalkoholkonzentration in Betracht: sie ist zwar noch weniger zuverlässig, aber dafür preisgünstig und mit minimalem Aufwand erhältlich. (Nur am Rande sei erwähnt, dass alle genannten Bestimmungen die Verhältnisse mit zeitlichem Verzug wiedergeben und so wiederum eine Streuung verursachen; die nach einem Verkehrsunfall ermittelte Blutalkoholkonzentration ist also selbst nur eine Proxy-Variable der Blutalkoholkonzentration zum Unfallzeitpunkt bzw. bei Fahrtantritt.)

Um die Abschätzung eines schwer zugänglichen Parameters zu verbessern, bedient man sich gern mehrerer Proxy-Variablen zugleich, nicht zuletzt in der Medizin (Beispiel: Blutzuckerkonzentration und Konzentration des HbA1C zur Abschätzung des Vorliegens bzw. des Schweregrades einer Zuckerkrankheit). Ähnliche Funktionen erfüllen die verschiedenen medinischen Score-Systeme, die z. B. Auskunft über den Schweregrad einer Krankheit oder die Überlebenschancen geben sollen (etwa: SOFA-Score, APACHE-Score).[1]

Einzelnachweise

  1. R. Pirrachio: Mortality Prediction in the ICU based on MIMIC-II results from the Super ICU Learner Algorithm (SICULA) Project. In: Secondary analysis of electronic health records. Springer, 10. September 2016, abgerufen am 4. Dezember 2021 (englisch).

Literatur

  • Helge Toutenburg, Götz Trenkler: Proxy variables and mean square error dominance in linear regression. In: Regensburger Beiträge zur Statistik und Ökonometrie. 28. Jahrgang, 1991, S. 14.
  • Götz Trenkler, Peter Stahlecker: Dropping variables versus use of proxy variables in linear regression. In: Journal of Statistical Planning and Inference. 50. Jahrgang, Nr. 1. NORTH-HOLLAND, 1996, S. 65–75, doi:10.1016/0378-3758(95)00045-3.
  • Götz Trenkler, Helge Toutenburg: Proxy variables and mean square error dominance in linear regression. In: Journal of Quantitative Economics. 8. Jahrgang, 1992, S. 433–442.
  • Peter Stahlecker, Götz Trenkler: Some further results on the use of proxy variables in prediction. In: The Review of Economics and Statistics. 75. Jahrgang. The MIT Press, 1993, S. 707–711.