Portal:Statistik/Datensätze


Datensätze

Hier findet sich eine Übersicht in der deutschsprachigen Wikipedia für Beispiele und Grafiken verwendeter Datensätze. Zu jedem Datensatz sind entsprechende Verweise auf die Daten und ihre Beschreibungen aufgeführt. Die Übersicht ist nach Datensätzen geordnet. Beispiele, die explizit ausgewiesen auf computergenerierten oder ausgedachten (Zufalls-)Daten basieren und Beispiele, deren Datengrundlage direkt im Artikel gegeben ist, werden hier nicht berücksichtigt.

Diese Übersicht soll

  • Wikipedia-Autoren dienen, Beispiele und Grafiken zu konstruieren bzw. zu erweitern oder zu überprüfen und
  • Lesern ermöglichen, sich noch eingehender und eigenständig mit vorhandenen Beispielen und Datensätzen zu befassen.

Sollte ein Link nicht mehr funktionieren oder wenn dir ein Datensatz fehlt, bitten wir um selbstständige Korrektur bzw. Ergänzung oder eine kurze Mitteilung auf der Diskussionsseite des Portals. Die Seite wird so oft wie möglich gewartet und erweitert.

Übersicht Datensätze

Die folgende Tabelle bietet eine Übersicht über Daten und Beschreibungen der hier vorgestellten Datensätze.

NameAnz.
Beob.
Anz. Variablen
und
Skalenniveau
DatenBeschreibung
Boston Housing50612metrisch-stetigDatenBeschreibung
1ordinal
1nominal-binär
Iris Flower1504metrisch-stetigDatenBeschreibung
1nominal
Olympia 1984
(track records)
5515metrisch-stetigBelcham und
Hymans (1984)[1]
siehe
unten
1nominal
Bruttowertschöpfung187metrisch-stetigDatensiehe
unten
2metrisch-diskret
cube6646metrisch-stetigDaten (XML)siehe
unten
Eiscreme303metrisch-stetigDatenBeschreibung
4metrisch-diskret
Flohkäfer
(flea beetles)
746metrisch-stetigBeschr.
1nominal
Kriegsschiffe1142nominalDatensiehe
unten
1ordinal
2metrisch-diskret
7metrisch-stetig
Titanic
(Kreuztabellen)
2201
2nominalGNU R
(datasets)
?Titanic in R
oder hier
2ordinal

Klassische Datensätze

Es existieren einige sehr bekannte Datensätze, die in der Vergangenheit besonders häufig als Beispieldatensätze für Lehrzwecke genutzt wurden.

Boston Housing

Der Boston Housing-Datensatz beschreibt die Wohnverhältnisse in 506 Gebieten von Boston auf Basis einer Erhebung aus dem Jahr 1970.[2] Der Datensatz enthält 13 stetige und eine binäre (Dummy-)Variable. Die Dummy-Variable gibt an, ob das entsprechende Gebiet direkt am Charles River liegt. Der Median der Hauspreise pro Gebiet ist die abhängige Variable in der ursprünglichen Analyse.

Es existieren auch Erweiterungen des Boston-Housing-Datensatzes mit zusätzlichen Informationen über die räumlichen Gegebenheiten.

Iris

Iris-Daten in einer Streudiagramm-Matrix

Der Iris-flower-Datensatz besteht aus jeweils 50 Beobachtungen dreier Arten von Schwertlilien (Iris) (Iris Setosa, Iris Virginica und Iris Versicolor), an denen jeweils vier Attribute der Blüten erhoben wurden: Die Länge und die Breite des Sepalum (Kelchblatt) und des Petalum (Kronblatt).[3]

Von R. A. Fisher wurde der Datensatz zur Demonstration der Güte einer diskriminanzanalytischen Methode genutzt, bei der aus den Blüteneigenschaften die Zuordnung der Art erfolgte.[4]

Ergebnis einer Clusteranalyse mit k-Means und reale Schwertlilien-Spezies, visualisiert mit ELKI. Die Clusterzentren sind durch größere, blassere Symbole gekennzeichnet.

Der Datensatz wird heute im Maschinellen Lernen gerne als Testdatensatz für Lernverfahren wie Support Vector Machinen verwendet, da er linear trennbar ist. Für die Clusteranalyse hingegen ist er ein Paradebeispiel, dass Cluster und Klassen nicht übereinstimmen müssen: ohne Verwendung des Vorwissens über die realen Spezies werden zuverlässig nur zwei Cluster identifiziert, die Trennung des zweiten Clusters in zwei Spezies ist nur mit Vorwissen möglich.

Olympia 1984 (Olympic track records dataset)

Datensatz über die Olympischen Spiele des Jahres 1984.[5]

Der Datensatz enthält die Rekorde je Disziplin von 55 Nationen, die an den 1984er Olympischen Spielen teilgenommen haben. Er umfasst sieben Disziplinen der Frauen (100, 200, 400, 800, 1500, 3000 Meter und der Marathonlauf (42.195 Meter)) und acht Disziplinen der Männer (100, 200, 400, 800, 1500, 5000, 10000 Meter und der Marthonlauf (42.195 Meter)). An jeder der 55 Beobachtungen (Nationen) wurden also 7+8=15 Merkmale erhoben.

Der Datensatz wurde in der Vergangenheit unter anderem zur Veranschaulichung der Hauptkomponentenanalyse genutzt.[6][7][8]

Weitere Datensätze

Bruttowertschöpfung

Der Bruttowertschöpfung Datensatz enthält die Bruttowertschöpfung nach Wirtschaftsbereichen in Deutschland in Mrd. EUR vom Quartal I/2000 bis II/2004. Die Daten stammen ursprünglich von Statistischen Bundesamt.

cube6

Der cube6-Datensatz enthält 64=26 Datenpunkte (Beobachtungen), die auf den Ecken eines 6-dimensionalen Hyperwürfels liegen. Die sechs Koordinaten eines Eckpunktes können als Werte der Variablen "Koordinate 1 bis 6" angesehen werden.

Für mehr Informationen zum 6-dimensionalen Hyperwürfel siehe z.B. hier: Eigenschaften sechsdimensionaler Hyperwürfel (englisch).

Eiscreme

Grundlage des Eiscreme-Datensatzes ist eine Erhebung, in der in 30 Perioden von jeweils vier Wochen (18.03.1951 – 11.07.1953) die Höhe des Konsums von Speiseeis (in Pint pro Kopf) gemessen wurde.[9] Ziel der Studie bzw. von Folgestudien war, die Frage zu klären, ob der Speiseeiskonsum vom Preis, der Einkommenshöhe (beides in US-Dollar), der mittleren Temperatur in der aktuellen Periode, der mittleren Temperatur in der vorhergehenden Periode (beide in Grad Fahrenheit) und/oder dem Jahr, in dem die Erhebung durchgeführt wurde, abhängt. Der Datensatz eignet sich z.B. für Zeitreihenanalysen.

Flohkäfer (flea beetles)

Der Flea Beetles-Datensatz[10] enthält Messungen an 74 Flohkäfern dreier Arten bezüglich sieben physischer Eigenschaften betreffend den Kopf, Tarsus und Aedeagus.

Kriegsschiffe

Der Datensatz beschreibt verschiedene Eigenschaften von Artillerie-Schiffen, die zur Zeit des Zweiten Weltkriegs im Einsatz waren.

Titanic

Der Titanic-Datensatz enthält Daten über Passagiere des Kreuzfahrtschiffs Titanic und deren Überlebensstatus.[11] Der ursprüngliche Datensatz[12] ist mittlerweile in auf verschiedene Weisen überarbeiteten Versionen erhältlich[13]. Ein bzgl. Klasse, Geschlecht, Alter und Überlebensstatus zusammengefasster Datensatz ist in GNU R über den Befehl data(Titanic) abrufbar.

Datenquellen

Wer auf der Suche nach Datensätzen zur Erstellung von Beispielen und Grafiken oder zur eigenständigen Auseinandersetzung mit (realen) Daten ist, wird zum Beispiel in den hier aufgeführten Datensammlungen fündig. Erweiterungen um weitere Anbieter und Informationen zu den vorhandenen Einträgen sind willkommen.

ALLBUS

Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) ist eine von der GESIS seit 1980 alle zwei Jahre durchgeführte repräsentative Befragung von jeweils ca. 2800 bis 3500 Bürgern der BRD, die Daten bzgl. Einstellungen, Verhaltensweisen und der Sozialstruktur der Bevölkerung der Bundesrepublik Deutschland erhebt.[14]

Zugang

Zur Verfügung stehen folgende für Forschungs- und Ausbildungsaktivitäten gebührenfreie Downloads:

  • Die ALLBUS-Vollversion, die nur für registrierte Nutzer verfügbar ist und
  • ALLBUScompact-Datensätze mit reduzierter Demographie.

Weblinks

  • ALLBUS: Allgemeine Bevölkerungsumfrage der Sozialwissenschaften

Data and Story Library

Die "Data and Story Library" (DASL) ist eine (englischsprachige) frei zugängliche Online-Sammlung von Datensätzen (data) und deren Beschreibungen (stories), die die praktische Anwendung und damit Übung statistischer Methoden ermöglichen sollen.

Während die data-Seiten eine Kurzbeschreibung und den Datensatz selbst liefern, finden sich auf der jeweils zugehörigen "story"-Seite weitere Hintergründe zum Datensatz sowie häufig auch Beispielanalysen.

Zugang

Die Datensätze sind unter Data and Story Library (DASL) kostenlos öffentlich zugänglich.

Europäische Kommission für Wirtschaft und Finanzen

Die Europäische Kommission für Wirtschaft und Finanzen bietet verschiedene die Wirtschaft der EU-Mitgliedsstaaten betreffende Datensätze (z.B. AMECO).

Zugang

Wirtschaftsdatenbanken und -indikatoren

Eurostat

Eurostat ist das statistische Amt der Europäischen Union. Die angebotene Datenbank bietet Statistiken über die Mitgliedsländer der EU hinsichtlich vielfältiger Bereiche.

Zugang

Datenbank des Statistischen Amts der Europäischen Gemeinschaft (EUROSTAT)

General Social Survey

Der General Social Survey (GSS) ist eine seit 1972 in den USA durchgeführte Bevölkerungsumfrage, die der Erhebung demographischer Daten der (über 18-jährigen) Bürger und ihren Einstellungen zu verschiedenen Themen dient. Der GSS kann somit als US-amerikanisches Pendant zur deutschen ALLBUS angesehen werden.

Zugang

GNU R

Die frei verfügbare statistische Programmiersprache GNU R verfügt schon in der Kerndistribution über eine große Anzahl von Datensätzen, die mit dem Befehl data(Name des Datensatzes) abgerufen werden können. Viele Pakete enthalten weitere Datensätze, an denen die in den Paketen enthaltenen statistischen Methoden exemplarisch angewendet werden können.

Zugang

Der Befehl data() listet alle in den momentan geladenen Paketen verfügbaren Datensätze auf, der Befehl data(package = .packages(all.available = TRUE)) die Datensätze in jeglichen installierten (auch nicht geladenen) Paketen.

SOEP

Das Sozio-oekonomische Panel (SOEP)[15] ist eine seit 1984 jährlich an über 12.000 Privathaushalten in Deutschland durchgeführte repräsentative Panelerhebung.

Zugang

Die SOEP-Daten dürfen (fast) ausschließlich für die eigene wissenschaftliche Forschung genutzt werden. Unter bestimmten Bedingungen ist der Einsatz in der Lehre gestattet.[16] Der Datensatz ist aus Gründen des Datenschutzes nicht online verfügbar. Nach erfolgreichem Abschluss eines sog. Datenweitergabevertrags wird der SOEP-Datensatz auf einer DVD für 30EUR an den Interessenten gesandt.[17] Bei der Publikation von Analyseergebnissen ist besonders auf Wahrung der Anonymität der Befragten zu achten.

Weblinks

Statistische Ämter

Das Statistische Bundesamt und die statistischen Ämter der Bundesländer bieten thematisch vielfältige Datensätze über die BRD und ihre Bundesländer an, siehe auch Amtliche Statistik.

Zugang

Im Rahmen der Beispielerstellung oder eigenständigen Übung an realen Datensätzen besonders zu erwähnen sind die für "alle interessierten Personen und Einrichtungen"[18] frei online abrufbaren Campus-Files und die per CD/DVD erhältlichen Public-Use-Files, die vollständig anonymisierte Mikrodaten enthalten.

Weblinks

Mikrozensus

Der Mikrozensus ist eine vom statistischen Bundesamt jährlich durchgeführte repräsentative Bevölkerungsumfrage in Deutschland, die der "Bereitstellung statistischer Informationen über die wirtschaftliche und soziale Lage der Bevölkerung sowie über die Erwerbstätigkeit, den Arbeitsmarkt und die Ausbildung"[19] dient. Jedes Jahr wird eine Zufallsstichprobe von 1% der deutschen Privathaushalte befragt, d.h. etwa 390.000 Haushalte mit 830.000 Menschen.

Zugang

Weblinks

Weitere

Hier finden sich weitere empfehlenswerte Datenangebote, die noch einer näheren Beschreibung bedürfen:

Literatur

  • David J. Hand, Fergus Daly, Kevin McConway (1994) Handbook of Small Data Sets, Chapman & Hall (in englisch).

Einzelnachweise

  1. Belcham, P. and Hymans, R., The I.A.A.F./A.T.F.S. statistics handbook for the track and field events of the Olympic games: Los Angeles, USA, August 3rd-11th, 1984, International Amateur Athletic Federation, 1984
  2. Harrison, D. and Rubinfeld, D.L. (1978). Hedonic prices and the demand for clean air. Journal of Environmental Economics and Management, 5, 81–102
  3. Edgar Anderson: The irises of the Gaspé Peninsula. In: Bulletin of the American Iris Society. 59, 1935, S. 2–5.
  4. Fisher, R.A.: The Use of Multiple Measurements in Taxonomic Problems. In: Annals of Eugenics. 7, 1936, S. 179–188.
  5. Belcham, P. and Hymans, R., The I.A.A.F./A.T.F.S. statistics handbook for the track and field events of the Olympic games: Los Angeles, USA, August 3rd-11th, 1984, International Amateur Athletic Federation, 1984
  6. http://www.questia.com/googleScholar.qst?docId=5000444084>
  7. Dawkins (1989)
  8. Johnson, R. A. and Wichern, D. W. (1998). Applied Multivariate Statistical Analysis. Prentice-Hall International, USA.
  9. Koteswara Rao Kadiyala (1970) Testing for the independence of regression disturbances. Econometrica, 38, 97-117
  10. Lubischew, A. A. (1962), On the Use of Discriminant Functions in Taxonomy, Biometrics 18, 455–477.
  11. Eaton & Haas (1994) Titanic: Triumph and Tragedy, Patrick Stephens Ltd
  12. British Board of Trade (1990), Report on the Loss of the ‘Titanic’ (S.S.). British Board of Trade Inquiry Report (reprint). Gloucester, UK: Allan Sutton Publishing.
  13. http://lib.stat.cmu.edu/S/Harrell/data/descriptions/titanic.html
  14. http://www.gesis.org/dienstleistungen/daten/umfragedaten/allbus/
  15. Webseite des Soziökonomischen Panels des DIW
  16. http://www.diw.de/de/diw_02.c.222839.de/soep_in_der_lehre.html
  17. http://www.diw.de/de/diw_02.c.222517.de/daten.html, 11.03.2010, 19:12 Uhr
  18. http://www.forschungsdatenzentrum.de/datenzugang.asp, 15.03.2010, 11:14 Uhr
  19. http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Content/Wissenschaftsforum/MethodenVerfahren/Mikrozensus/SUFMikrozensus.psml

Auf dieser Seite verwendete Medien

Iris dataset scatterplot.svg
Autor/Urheber: Nicoguaro, Lizenz: CC BY 4.0
The scatterplot of Iris flower data set, collected by Edgar Anderson and popularized in the Machine learning community by Ronald Fisher.
IMG 7911-Iris virginica.jpg
Autor/Urheber: C T Johansson, Lizenz: CC BY 3.0
Iris virginica (flaggiris)
Iris Flowers Clustering kMeans de.svg
Iris flower data set, mit dem k-Means-Algorithmus analysiert (links) und die wahren Spezien im Datensatz (rechts).

Da k-means nicht deterministisch ist, variieren die Ergebnisse. Die Clusterzentren sind durch größere, halbtransparente Markierungen eingezeichnet.

Visualisiert mit ELKI