Gepoolte Daten

Als gepoolte Daten (englisch pooled data, von to pool sth., etwas zusammenlegen) bezeichnet man im weitesten Sinn Datensätze, die Daten mehrerer Erhebungen oder Studien zusammenfügen. Bei einer Metaanalyse geschieht das durch Zusammenfassung von Primär-Untersuchungen zu Metadaten.

Pooled data wird aber auch synonym zu Paneldaten verwendet.[1][2] Andererseits wird panel data auch als Spezialfall von pooled data aufgefasst, in dem Sinne, dass zwar beide Dimensionen (Untersuchungseinheiten und Messzeitpunkte) vorliegen, sich die Untersuchungseinheiten jedoch unterscheiden, z. B. verschiedene Personen[3] Werden innerhalb einer Erhebung verschiedene Gruppen zu wiederkehrenden Zeitpunkten abwechselnd befragt, spricht man wiederum von einem rotierenden Panel.[4]

Im Kontext der Längsschnitterhebungen bzw. Längsschnittstudien können mehrere Erhebungswellen (engl. waves) zusammengefasst werden. Paneldaten haben zu verschiedenen Beobachtungszeitpunkten dieselben Kennzahlen für verschiedene Untersuchungseinheiten erfasst. Diese könnten mit linearen Paneldatenmodellen (Paneldatenmodellen mit festen Effekten (englisch fixed effects model) und Paneldatenmodellen mit zufälligen Effekten (englisch random effects model)) untersucht werden. Beim Poolen gibt man eine Dimension auf, und betrachtet beispielsweise alle gemessenen Kennzahlen in allen Jahrgängen gleichzeitig um einen Zusammenhang zu untersuchen. Man spricht auch von pooled cross section. Dadurch erhöht sich die Stichprobengröße.[5] Außerdem können präzisere Schätzer und Teststatistiken mit höherer Teststärke erhalten werden.[6] Allerdings geht die Panel-Struktur verloren und beispielsweise kausale Effekte sind schwieriger zu identifizieren. Allgemein werden Paneldaten gegenüber gepoolten Daten oft Vorteile zugesprochen, etwa die Berücksichtigung von Heterogenität der Untersuchungseinheiten oder weniger Problemen mit Autokorrelation und Multikollinearität.[7]

Einzelnachweise

  1. Washington, S. P., Karlaftis, M. G., & Mannering, F. (2010). Statistical and econometric methods for transportation data analysis. Chapman and Hall/CRC. S. 161.
  2. Zaniolo, C., Ceri, S., Faloutsos, C., Snodgrass, R. T., Subrahmanian, V. S., & Zicari, R. (1997). Advanced database systems. Morgan Kaufmann. S. 191.
  3. Lewis, M. (2012). Applied statistics for economists. Routledge. S. 38.
  4. Häder, M. (2015). Empirische Sozialforschung: Eine Einführung. Springer-Verlag. S. 120.
  5. Wooldridge, J. M. (2016). Introductory econometrics: A modern approach. Nelson Education. S. 8.
  6. Wooldridge, J. M. (2016). Introductory econometrics: A modern approach. Nelson Education. S. 403.
  7. Mochimaru, M., Ueda, K., & Takenaka, T. (2014). Serviceology for services. In Selected papers of the 1st International Conference of Serviceology. Springer Japan. S. 166.