Portal:Statistik/Datensätze
Datensätze
Hier findet sich eine Übersicht in der deutschsprachigen Wikipedia für Beispiele und Grafiken verwendeter Datensätze. Zu jedem Datensatz sind entsprechende Verweise auf die Daten und ihre Beschreibungen aufgeführt. Die Übersicht ist nach Datensätzen geordnet. Beispiele, die explizit ausgewiesen auf computergenerierten oder ausgedachten (Zufalls-)Daten basieren und Beispiele, deren Datengrundlage direkt im Artikel gegeben ist, werden hier nicht berücksichtigt.
Diese Übersicht soll
- Wikipedia-Autoren dienen, Beispiele und Grafiken zu konstruieren bzw. zu erweitern oder zu überprüfen und
- Lesern ermöglichen, sich noch eingehender und eigenständig mit vorhandenen Beispielen und Datensätzen zu befassen.
Sollte ein Link nicht mehr funktionieren oder wenn dir ein Datensatz fehlt, bitten wir um selbstständige Korrektur bzw. Ergänzung oder eine kurze Mitteilung auf der Diskussionsseite des Portals. Die Seite wird so oft wie möglich gewartet und erweitert.
Übersicht Datensätze
Die folgende Tabelle bietet eine Übersicht über Daten und Beschreibungen der hier vorgestellten Datensätze.
Name | Anz. Beob. | Anz. Variablen und Skalenniveau | Daten | Beschreibung | |
---|---|---|---|---|---|
Boston Housing | 506 | 12 | metrisch-stetig | Daten | Beschreibung |
1 | ordinal | ||||
1 | nominal-binär | ||||
Iris Flower | 150 | 4 | metrisch-stetig | Daten | Beschreibung |
1 | nominal | ||||
Olympia 1984 (track records) | 55 | 15 | metrisch-stetig | Belcham und Hymans (1984)[1] | siehe unten |
1 | nominal | ||||
Bruttowertschöpfung | 18 | 7 | metrisch-stetig | Daten | siehe unten |
2 | metrisch-diskret | ||||
cube6 | 64 | 6 | metrisch-stetig | Daten (XML) | siehe unten |
Eiscreme | 30 | 3 | metrisch-stetig | Daten | Beschreibung |
4 | metrisch-diskret | ||||
Flohkäfer (flea beetles) | 74 | 6 | metrisch-stetig | Beschr. | |
1 | nominal | ||||
Kriegsschiffe | 114 | 2 | nominal | Daten | siehe unten |
1 | ordinal | ||||
2 | metrisch-diskret | ||||
7 | metrisch-stetig | ||||
Titanic (Kreuztabellen) | 2201 | 2 | nominal | GNU R (datasets) | ?Titanic in R oder hier |
2 | ordinal |
Klassische Datensätze
Es existieren einige sehr bekannte Datensätze, die in der Vergangenheit besonders häufig als Beispieldatensätze für Lehrzwecke genutzt wurden.
Boston Housing
Der Boston Housing-Datensatz beschreibt die Wohnverhältnisse in 506 Gebieten von Boston auf Basis einer Erhebung aus dem Jahr 1970.[2] Der Datensatz enthält 13 stetige und eine binäre (Dummy-)Variable. Die Dummy-Variable gibt an, ob das entsprechende Gebiet direkt am Charles River liegt. Der Median der Hauspreise pro Gebiet ist die abhängige Variable in der ursprünglichen Analyse.
Es existieren auch Erweiterungen des Boston-Housing-Datensatzes mit zusätzlichen Informationen über die räumlichen Gegebenheiten.
Iris
Der Iris-flower-Datensatz besteht aus jeweils 50 Beobachtungen dreier Arten von Schwertlilien (Iris) (Iris Setosa, Iris Virginica und Iris Versicolor), an denen jeweils vier Attribute der Blüten erhoben wurden: Die Länge und die Breite des Sepalum (Kelchblatt) und des Petalum (Kronblatt).[3]
Von R. A. Fisher wurde der Datensatz zur Demonstration der Güte einer diskriminanzanalytischen Methode genutzt, bei der aus den Blüteneigenschaften die Zuordnung der Art erfolgte.[4]
Der Datensatz wird heute im Maschinellen Lernen gerne als Testdatensatz für Lernverfahren wie Support Vector Machinen verwendet, da er linear trennbar ist. Für die Clusteranalyse hingegen ist er ein Paradebeispiel, dass Cluster und Klassen nicht übereinstimmen müssen: ohne Verwendung des Vorwissens über die realen Spezies werden zuverlässig nur zwei Cluster identifiziert, die Trennung des zweiten Clusters in zwei Spezies ist nur mit Vorwissen möglich.
Olympia 1984 (Olympic track records dataset)
Datensatz über die Olympischen Spiele des Jahres 1984.[5]
Der Datensatz enthält die Rekorde je Disziplin von 55 Nationen, die an den 1984er Olympischen Spielen teilgenommen haben. Er umfasst sieben Disziplinen der Frauen (100, 200, 400, 800, 1500, 3000 Meter und der Marathonlauf (42.195 Meter)) und acht Disziplinen der Männer (100, 200, 400, 800, 1500, 5000, 10000 Meter und der Marthonlauf (42.195 Meter)). An jeder der 55 Beobachtungen (Nationen) wurden also 7+8=15 Merkmale erhoben.
Der Datensatz wurde in der Vergangenheit unter anderem zur Veranschaulichung der Hauptkomponentenanalyse genutzt.[6][7][8]
Weitere Datensätze
Bruttowertschöpfung
Der Bruttowertschöpfung Datensatz enthält die Bruttowertschöpfung nach Wirtschaftsbereichen in Deutschland in Mrd. EUR vom Quartal I/2000 bis II/2004. Die Daten stammen ursprünglich von Statistischen Bundesamt.
cube6
Der cube6-Datensatz enthält 64=26 Datenpunkte (Beobachtungen), die auf den Ecken eines 6-dimensionalen Hyperwürfels liegen. Die sechs Koordinaten eines Eckpunktes können als Werte der Variablen "Koordinate 1 bis 6" angesehen werden.
Für mehr Informationen zum 6-dimensionalen Hyperwürfel siehe z.B. hier: Eigenschaften sechsdimensionaler Hyperwürfel (englisch).
Eiscreme
Grundlage des Eiscreme-Datensatzes ist eine Erhebung, in der in 30 Perioden von jeweils vier Wochen (18.03.1951 – 11.07.1953) die Höhe des Konsums von Speiseeis (in Pint pro Kopf) gemessen wurde.[9] Ziel der Studie bzw. von Folgestudien war, die Frage zu klären, ob der Speiseeiskonsum vom Preis, der Einkommenshöhe (beides in US-Dollar), der mittleren Temperatur in der aktuellen Periode, der mittleren Temperatur in der vorhergehenden Periode (beide in Grad Fahrenheit) und/oder dem Jahr, in dem die Erhebung durchgeführt wurde, abhängt. Der Datensatz eignet sich z.B. für Zeitreihenanalysen.
Flohkäfer (flea beetles)
Der Flea Beetles-Datensatz[10] enthält Messungen an 74 Flohkäfern dreier Arten bezüglich sieben physischer Eigenschaften betreffend den Kopf, Tarsus und Aedeagus.
Kriegsschiffe
Der Datensatz beschreibt verschiedene Eigenschaften von Artillerie-Schiffen, die zur Zeit des Zweiten Weltkriegs im Einsatz waren.
Titanic
Der Titanic-Datensatz enthält Daten über Passagiere des Kreuzfahrtschiffs Titanic und deren Überlebensstatus.[11] Der ursprüngliche Datensatz[12] ist mittlerweile in auf verschiedene Weisen überarbeiteten Versionen erhältlich[13]. Ein bzgl. Klasse, Geschlecht, Alter und Überlebensstatus zusammengefasster Datensatz ist in GNU R über den Befehl data(Titanic) abrufbar.
Datenquellen
Wer auf der Suche nach Datensätzen zur Erstellung von Beispielen und Grafiken oder zur eigenständigen Auseinandersetzung mit (realen) Daten ist, wird zum Beispiel in den hier aufgeführten Datensammlungen fündig. Erweiterungen um weitere Anbieter und Informationen zu den vorhandenen Einträgen sind willkommen.
ALLBUS
Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) ist eine von der GESIS seit 1980 alle zwei Jahre durchgeführte repräsentative Befragung von jeweils ca. 2800 bis 3500 Bürgern der BRD, die Daten bzgl. Einstellungen, Verhaltensweisen und der Sozialstruktur der Bevölkerung der Bundesrepublik Deutschland erhebt.[14]
Zugang
Zur Verfügung stehen folgende für Forschungs- und Ausbildungsaktivitäten gebührenfreie Downloads:
- Die ALLBUS-Vollversion, die nur für registrierte Nutzer verfügbar ist und
- ALLBUScompact-Datensätze mit reduzierter Demographie.
Weblinks
- ALLBUS: Allgemeine Bevölkerungsumfrage der Sozialwissenschaften
Data and Story Library
Die "Data and Story Library" (DASL) ist eine (englischsprachige) frei zugängliche Online-Sammlung von Datensätzen (data) und deren Beschreibungen (stories), die die praktische Anwendung und damit Übung statistischer Methoden ermöglichen sollen.
Während die data-Seiten eine Kurzbeschreibung und den Datensatz selbst liefern, finden sich auf der jeweils zugehörigen "story"-Seite weitere Hintergründe zum Datensatz sowie häufig auch Beispielanalysen.
Zugang
Die Datensätze sind unter Data and Story Library (DASL) kostenlos öffentlich zugänglich.
Europäische Kommission für Wirtschaft und Finanzen
Die Europäische Kommission für Wirtschaft und Finanzen bietet verschiedene die Wirtschaft der EU-Mitgliedsstaaten betreffende Datensätze (z.B. AMECO).
Zugang
Wirtschaftsdatenbanken und -indikatoren
Eurostat
Eurostat ist das statistische Amt der Europäischen Union. Die angebotene Datenbank bietet Statistiken über die Mitgliedsländer der EU hinsichtlich vielfältiger Bereiche.
Zugang
Datenbank des Statistischen Amts der Europäischen Gemeinschaft (EUROSTAT)
General Social Survey
Der General Social Survey (GSS) ist eine seit 1972 in den USA durchgeführte Bevölkerungsumfrage, die der Erhebung demographischer Daten der (über 18-jährigen) Bürger und ihren Einstellungen zu verschiedenen Themen dient. Der GSS kann somit als US-amerikanisches Pendant zur deutschen ALLBUS angesehen werden.
Zugang
GNU R
Die frei verfügbare statistische Programmiersprache GNU R verfügt schon in der Kerndistribution über eine große Anzahl von Datensätzen, die mit dem Befehl data(Name des Datensatzes) abgerufen werden können. Viele Pakete enthalten weitere Datensätze, an denen die in den Paketen enthaltenen statistischen Methoden exemplarisch angewendet werden können.
Zugang
Der Befehl data() listet alle in den momentan geladenen Paketen verfügbaren Datensätze auf, der Befehl data(package = .packages(all.available = TRUE)) die Datensätze in jeglichen installierten (auch nicht geladenen) Paketen.
SOEP
Das Sozio-oekonomische Panel (SOEP)[15] ist eine seit 1984 jährlich an über 12.000 Privathaushalten in Deutschland durchgeführte repräsentative Panelerhebung.
Zugang
Die SOEP-Daten dürfen (fast) ausschließlich für die eigene wissenschaftliche Forschung genutzt werden. Unter bestimmten Bedingungen ist der Einsatz in der Lehre gestattet.[16] Der Datensatz ist aus Gründen des Datenschutzes nicht online verfügbar. Nach erfolgreichem Abschluss eines sog. Datenweitergabevertrags wird der SOEP-Datensatz auf einer DVD für 30EUR an den Interessenten gesandt.[17] Bei der Publikation von Analyseergebnissen ist besonders auf Wahrung der Anonymität der Befragten zu achten.
Weblinks
Statistische Ämter
Das Statistische Bundesamt und die statistischen Ämter der Bundesländer bieten thematisch vielfältige Datensätze über die BRD und ihre Bundesländer an, siehe auch Amtliche Statistik.
Zugang
Im Rahmen der Beispielerstellung oder eigenständigen Übung an realen Datensätzen besonders zu erwähnen sind die für "alle interessierten Personen und Einrichtungen"[18] frei online abrufbaren Campus-Files und die per CD/DVD erhältlichen Public-Use-Files, die vollständig anonymisierte Mikrodaten enthalten.
Weblinks
- Statistik-Portal der statistischen Ämter
- Forschungsdatenzentren der Statistischen Ämter des Bundes und der Länder
- Metadatengestütztes Gemeinsames Neues Statistisches Informations-System der Statistischen Ämter des Bundes und der Länder (GENESIS), kostenlos nutzbar, kostenpflichtige Registrierung für weitergehende Optionen möglich
- Regionaldatenbanken
- Campus-Files
- Online-Datenbank der Gesundheitsberichterstattung (GBE) des Bundes
Mikrozensus
Der Mikrozensus ist eine vom statistischen Bundesamt jährlich durchgeführte repräsentative Bevölkerungsumfrage in Deutschland, die der "Bereitstellung statistischer Informationen über die wirtschaftliche und soziale Lage der Bevölkerung sowie über die Erwerbstätigkeit, den Arbeitsmarkt und die Ausbildung"[19] dient. Jedes Jahr wird eine Zufallsstichprobe von 1% der deutschen Privathaushalte befragt, d.h. etwa 390.000 Haushalte mit 830.000 Menschen.
Zugang
Weblinks
Weitere
Hier finden sich weitere empfehlenswerte Datenangebote, die noch einer näheren Beschreibung bedürfen:
- Einige "klassische Datensätze" und ihre Bezugsquellen sind in der englischen Wikipedia aufgelistet ("Classic data sets").
- In den Weblinks des Artikels ALLBUS finden sich einige ALLBUS-Pendants anderer Länder.
- UCI Machine Learning Data Repository: Vielfältige Datensätze, allerdings etwas unübersichtlich.
Literatur
- David J. Hand, Fergus Daly, Kevin McConway (1994) Handbook of Small Data Sets, Chapman & Hall (in englisch).
Einzelnachweise
- ↑ Belcham, P. and Hymans, R., The I.A.A.F./A.T.F.S. statistics handbook for the track and field events of the Olympic games: Los Angeles, USA, August 3rd-11th, 1984, International Amateur Athletic Federation, 1984
- ↑ Harrison, D. and Rubinfeld, D.L. (1978). Hedonic prices and the demand for clean air. Journal of Environmental Economics and Management, 5, 81–102
- ↑ Edgar Anderson: The irises of the Gaspé Peninsula. In: Bulletin of the American Iris Society. 59, 1935, S. 2–5.
- ↑ Fisher, R.A.: The Use of Multiple Measurements in Taxonomic Problems. In: Annals of Eugenics. 7, 1936, S. 179–188.
- ↑ Belcham, P. and Hymans, R., The I.A.A.F./A.T.F.S. statistics handbook for the track and field events of the Olympic games: Los Angeles, USA, August 3rd-11th, 1984, International Amateur Athletic Federation, 1984
- ↑ http://www.questia.com/googleScholar.qst?docId=5000444084>
- ↑ Dawkins (1989)
- ↑ Johnson, R. A. and Wichern, D. W. (1998). Applied Multivariate Statistical Analysis. Prentice-Hall International, USA.
- ↑ Koteswara Rao Kadiyala (1970) Testing for the independence of regression disturbances. Econometrica, 38, 97-117
- ↑ Lubischew, A. A. (1962), On the Use of Discriminant Functions in Taxonomy, Biometrics 18, 455–477.
- ↑ Eaton & Haas (1994) Titanic: Triumph and Tragedy, Patrick Stephens Ltd
- ↑ British Board of Trade (1990), Report on the Loss of the ‘Titanic’ (S.S.). British Board of Trade Inquiry Report (reprint). Gloucester, UK: Allan Sutton Publishing.
- ↑ http://lib.stat.cmu.edu/S/Harrell/data/descriptions/titanic.html
- ↑ http://www.gesis.org/dienstleistungen/daten/umfragedaten/allbus/
- ↑ Webseite des Soziökonomischen Panels des DIW
- ↑ http://www.diw.de/de/diw_02.c.222839.de/soep_in_der_lehre.html
- ↑ http://www.diw.de/de/diw_02.c.222517.de/daten.html, 11.03.2010, 19:12 Uhr
- ↑ http://www.forschungsdatenzentrum.de/datenzugang.asp, 15.03.2010, 11:14 Uhr
- ↑ http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Content/Wissenschaftsforum/MethodenVerfahren/Mikrozensus/SUFMikrozensus.psml
Auf dieser Seite verwendete Medien
Iris versicolor
Autor/Urheber: Nicoguaro, Lizenz: CC BY 4.0
The scatterplot of Iris flower data set, collected by Edgar Anderson and popularized in the Machine learning community by Ronald Fisher.
Autor/Urheber: C T Johansson, Lizenz: CC BY 3.0
Iris virginica (flaggiris)
Iris flower data set, mit dem k-Means-Algorithmus analysiert (links) und die wahren Spezien im Datensatz (rechts).
Da k-means nicht deterministisch ist, variieren die Ergebnisse. Die Clusterzentren sind durch größere, halbtransparente Markierungen eingezeichnet.
Visualisiert mit ELKI