Knowledge Discovery in Databases
Knowledge Discovery in Databases (KDD), auf Deutsch Wissensentdeckung in Datenbanken, ergänzt das oft synonym gebrauchte Data-Mining um vorbereitende Untersuchungen und Transformationen auszuwertender Daten.
Hintergrund
Ziel des KDD ist die Erkennung bislang unbekannter fachlicher Zusammenhänge aus vorhandenen, meist großen Datenbeständen. In Abgrenzung zum Data-Mining umfasst KDD als Gesamtprozess auch die Vorbereitung der Daten sowie die Bewertung der Resultate. Der Begriff KDD wurde in wissenschaftlichen Kreisen von Gregory Piatetsky-Shapiro geprägt, während in der Praxis der Begriff Data-Mining geläufiger ist, der in der Statistik jedoch traditionell negativ besetzt ist. Die Teilschritte des KDD-Prozesses sind:
- Bereitstellung von Hintergrundwissen für den jeweiligen Fachbereich
- Definition der Ziele der Wissensfindung
- Datenauswahl
- Datenbereinigung
- Datenreduktion (z. B. durch Transformationen)
- Auswahl eines Modells, in dem das gefundene Wissen repräsentiert werden soll
- Data-Mining, die eigentliche Datenanalyse
- Interpretation der gewonnenen Erkenntnisse
Üblicherweise werden diese Schritte mehrfach durchlaufen. Ein verbreitetes Vorgehensmodell ist der Cross-Industry Standard Process for Data-Mining (CRISP-DM).
Software
- ELKI ist ein Forschungsprojekt der Ludwig-Maximilians-Universität München, das zahlreiche Data-Mining-Algorithmen enthält (vor allem zur Clusteranalyse und Outlier-Erkennung, aber auch Indexstrukturen), zur Verwendung in Lehre und Forschung.
- KNIME ist ein frei erhältliches Open Source Tool für die interaktive Datenanalyse und Data-Mining.
- Ontop ist ein frei erhältliches Open Source Virtual Knowledge Graph System.
- RapidMiner ist ein frei erhältliches Open Source Tool für Maschinelles Lernen, Data-Mining und Predictive analytics, das alle Schritte des Wissensentdeckungsprozesses von der Datenauswahl, Datenbereinigung, Datenreduktion und -transformation über die Modellbildung und Validierung bis zur Visualisierung und dem Deployment unterstützt.
- Splunk ist eine Softwareplattform für Textdaten. Die kostenlose Version ist auf die Indexierung von 500 MB pro Tag beschränkt, und wesentliche Analysen wie Cluster-Analyse sind der kommerziellen Version vorbehalten.
- Weka ist ein Open Source Tool, welches von der Universität von Waikato entwickelt wurde. Es enthält eine umfangreiche Sammlung von Algorithmen zur Knowledge Discovery in Databases.
- Wolfram Alpha ist eine kostenlos nutzbare Wissensdatenbank, mit der auch etwas Datenanalyse möglich ist.
Literatur
- Martin Ester, Jörg Sander: Knowledge Discovery in Databases: Techniken und Anwendungen. Springer, Berlin 2000, ISBN 3-540-67328-8.
- Fayyad, Usama; Piatetsky-Shapiro, Gregory und Smyth Padhraic (1996), From Data Mining to Knowledge Discovery in Databases, AI Magazine, American Association for Artificial Intelligence, California, USA, Seite 37–54.
- Alpar, Paul und Niederreichholz, Joachim (2000), Data Mining im praktischen Einsatz: Verfahren und Anwendungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung, Vieweg Verlag, Wiesbaden, Deutschland.