Michael Brysch

Data Mining ist die systematische Anwendung statistischer Methoden auf große Datenbestände, um daraus neue Querverbindungen und Trends zu generieren. Auf diese Weise lassen sich speziell Big Data in nutzbringende Informationen überführen, die komplexe Fragestellungen beantworten und fundierte Entscheidungen unterstützen. Den Einsatzgebieten ist dabei keine Grenze gesetzt: Sie reichen von Marktanalysen über die Betrugserkennung bis hin zur wissenschaftlichen Forschung. Unternehmen können mit den gewonnenen Erkenntnissen beispielsweise die Verkäufe des kommenden Jahres vorhersagen oder maßgeschneiderte Produktangebote für ihre Kunden entwickeln.

Data Mining als Teil des KDD-Prozesses

Data Mining ist Kernbestandteil des sogenannten KDD-Prozesses – der „Knowledge Discovery from Data“. Hierbei handelt es sich um verschiedene Maßnahmen aus dem Bereich der Datenanalyse, die zusammengenommen die Gewinnung von Wissen fokussieren. Entsprechend umfasst der Prozess sowohl die Bereinigung, Integration und Transformation der zu analysierenden Datenbestände als auch die Evaluation und Visualisierung der Ergebnisse. Data Mining ist der eigentliche Analyseschritt, in dessen Kontext die Daten mit Hilfe intelligenter Algorithmen nach spezifischen Mustern und Trends untersucht werden. Die Summe dieser Algorithmen erzeugen ein „Data-Mining-Modell“, mit dessen Hilfe schließlich konkrete Problemstellungen bearbeitet werden können.

Data Mining im KDD-Prozess

Data Mining ist Kern des sogenannten KDD-Prozesses. (Bild: ORAYLIS GmbH)

Standardwerkzeuge für Data Mining

Sehr gut geeignet für eine professionelle Abbildung des KDD-Prozesses ist der SQL Server von Microsoft. Er beinhaltet alle erforderlichen Komponenten, angefangen bei den Integration Services (SSIS) zur Datenaufbereitung und Transformation über Data-Mining-Funktionalität im Rahmen der Analysis Services (SSAS) bis hin zur Visualisierung über die Reporting Services (SSRS). Zudem stellt der SQL Server diverse Algorithmen-Typen für das Data Mining bereit. Hierzu zählen unter anderem Klassifizierungs-, Clustering- und Regressionsalgorithmen.