Explorative Datenanalyse

Die explorative Datenanalyse (EDA) oder explorative Statistik ist ein Teilgebiet der Statistik. Sie untersucht und begutachtet Daten, von denen nur ein geringes Wissen über deren Zusammenhänge vorliegt. Viele EDA-Techniken werden im Data-Mining eingesetzt. Außerdem werden sie häufig in Lehrveranstaltungen über die Statistik als Einführung in das statistische Denken gelehrt.

Diese Benennung wurde von John W. Tukey in den 1970er Jahren eingeführt. Tukey legte dar, dass ein zu großer Schwerpunkt in der Statistik auf das Auswerten und Testen von gegebenen Hypothesen gelegt wird. Ferner schlug er vor, Daten dazu zu verwenden, um mögliche Hypothesen zu erhalten, welche anschließend getestet werden.

Ziele

Ziele der explorativen Statistik sind:

Verfahren

Grundlegende graphische Methoden, welche in der explorativen Statistik verwendet werden, sind:

Grundlegende quantitative Methoden sind:

  • Median polish
  • Letter values
  • Resistant line
  • Resistant smooth
  • Rootogram

Spezielle Verfahren

Probleme

Problematisch kann das Bilden von Hypothesen anhand eines Datensatzes und das Testen dieser Hypothesen auf dem gleichen Datensatz sein. Dann können scheinbar signifikante Resultate oder Scheinkorrelationen erhalten werden, die sich aber auf einem unabhängigen Datensatz zum selben Sachverhalt nicht zeigen würden – dies ist das Problem von P-Hacking. Ein Ausweg aus diesem Problem ist das strikte Trennen von Datensätzen, die man zum Bilden von Hypothesen nutzt und Datensätzen, die man zum validieren der gefundenen Hypothesen benutzt (siehe Kreuzvalidierungsverfahren).

Explorative Datenanalyse – Beurteilende Statistik

Die EDA, eine Weiterentwicklung der deskriptiven Statistik zur Analyse von Daten, arbeitet mehr induktiv: Mit ihren Methoden soll Neues entdeckt, sollen Vermutungen generiert, Besonderheiten erkannt und Sachverhalte dargestellt werden.[1] Die Daten bestimmen die Vorgehensweise. Die Einfachheit der Methoden und ihre Praxisrelevanz machen die EDA als Schulstoff besonders interessant.[2] Tukey benutzt die Figur des Datendetektivs[3], von dem Einfallsreichtum und Intuition verlangt werden, um die Einstellung zur EDA zu kennzeichnen. Die beurteilende Statistik arbeitet deduktiv: Eine Hypothese wird entweder verworfen oder beibehalten. Die dabei benutzten Verfahren sind hoch formalisiert, häufig schwer zu verstehen, ihre praktische Relevanz sowie die Interpretation der Ergebnisse umstritten.[4] Beide, EDA und beurteilende Statistik, schließen jedoch einander nicht aus, sie ergänzen sich.[5]

Literatur

  • Literatur über Explorative Datenanalyse im Katalog der Deutschen Nationalbibliothek
  • Hoaglin, D C; Mosteller, F & Tukey, J W (Eds) (1985) Exploring Data Tables, Trends and Shapes ISBN 0-471-09776-4
  • Hoaglin, D C; Mosteller, F & Tukey, J W (Eds) (1983) Understanding Robust and Exploratory Data Analysis ISBN 0-471-09777-2
  • Tukey, J W (1977) Exploratory Data Analysis ISBN 0-201-07616-0
  • Velleman, P F & Hoaglin, D C (1981) Applications, Basics and Computing of Exploratory Data Analysis ISBN 0-87150-409-X
  • Wolfgang Polasek: EDA Explorative Datenanalyse. Einführung in die deskriptive Statistik (2. Auflage). Springer-Verlag, Berlin 1994, ISBN 978-3-540-58394-3
  • Siegfried Heiler, Paul Michels: Deskriptive und explorative Datenanalyse. Oldenbourg, München 1994, ISBN 3-486-22786-6

Einzelnachweise

  1. R. Fischer, G. Mal : Mensch und Mathematik, BI Wissenschaftsverlag, Mannheim, Wien, Zürich 1989, ISBN 3-411-03117-4, S. 269
  2. R. Biehler: Explorative Datenanalyse - Neue Impulse für den Mathematikunterricht?. In : Beiträge für den Mathematikunterricht, Franzbecker Verlag, Bad Salzdetfurth 1983, S. 72–75
  3. Tukey, J. W.: Exploratory Data Analysis, Addison-Wesley, Reading MA, 1977 ISBN 0-201-07616-0,S. 1
  4. D. Vogel, G. Wintermantel: MATHE - explorative Datenanalyse - Statistik aktiv lernen, Klett Verlag, Stuttgart 2003, ISBN 3-12-720049-8, S. 10
  5. Tukey schreibt auf S. 3: „Explorative Datenanalyse kann niemals alles sein, doch nichts sonst kann als Grundstein dienen - als erster Schritt.“

Auf dieser Seite verwendete Medien

WarshipsWidthPPPlot.png
P-P-Plot of the width of warships; comparison with a normal distribution
Mosaic-big.png
Autor/Urheber: Seancarmody, Lizenz: CC BY-SA 3.0
Mosaic plot showing cross-sectional distribution through time of different musical themes in the Guardian's list "1000 songs to hear before you die". This chart first appeared in the blog post "Love is Old-Fashioned, Sex Less So" on A Stubborn Mule's Perspective.
Lang-breit.svg
Autor/Urheber: Benutzer:Philipendula, Lizenz: GFDL
Streudiagramm Länge - Breite von Artillerieschiffen
Thist german.png
Autor/Urheber: MM-Stat, Lizenz: CC BY-SA 3.0
Histogramm von 1000 Ziehungen aus einer t(5)-Verteilung
Elements of a boxplot.svg
Autor/Urheber: RobSeb, Lizenz: CC BY-SA 3.0
Beschreibung der Elemente eines Boxplots. Beispiel eines Boxplots. Kommentierter Boxplot.