Michael Schmahl

Die Heterogenität von Big Data lässt sich kaum noch mit klassischen Data-Warehouse(DWH)-Methoden abbilden. Der hohe Aufwand für die Datenintegration widerspricht modernen Anforderungen der Flexibilität und Agilität. Ohnehin können viele Big Data – zum Beispiel aus Sensorik oder Social Media – nur schwer in relationale Strukturen überführt werden.

Vor diesem Hintergrund hat sich das Data-Lake-Konzept etabliert. Ein Data Lake ermöglicht es, beliebige Daten in ihrer Ursprungsform kostengünstig zu sammeln und zu verknüpfen. Auf diese Weise können Data Scientists, Analysten und Fachanwender kreativ mit den Daten arbeiten und neue Erkenntnisse jenseits des standardisierten Reportings erschließen.

Mit Daten forschen

Beim klassischen DWH liegt der Fokus stets auf einer hohen Prozesseffizienz im Kontext interaktiver Analysen und Berichte. Es gilt, Informationen relativ passgenau für den Nutzer aufzubereiten. Währenddessen dient der Data Lake vor allem dazu, neue Zusammenhänge in Rohdaten möglichst einfach aufzudecken. Eine Aufbereitung und Strukturierung der Daten erfolgt nur, wenn sie vom Nutzer für spezifische Analysen gezielt gefordert wird. Dieses explorative Vorgehen ist im Bereich der Data Science weit verbreitet. Es kommt vor allem zum Einsatz, wenn sich der Wert von Datenbeständen nicht genau einschätzen lässt. In der Praxis hat sich eine Kombination aus standardisierten Self-Service-Analysen und Data-Science-Methoden als sinnvoll erwiesen.

Integration des Data Lake

Bei der ORAYLIS Data Analytics Platform lässt sich ein Data Lake homogen in die bestehende Architektur integrieren. Das Herzstück bildet dabei üblicherweise Hadoop. Das Open Source Framework kann beliebige Datenarten in großer Menge verarbeiten, wobei die Berechnungen auf verschiedene Knoten eines Rechnerverbundes verteilt werden. Damit eignet sich Hadoop nicht nur, um Rohdaten zu speichern und zu analysieren. Ebenso können die Daten bereits vor der Speicherung ausgewertet werden, etwa um Echtzeitanforderungen in Form von Warnmeldungen oder automatisierten Prozessen zu bedienen. Auch eine Vorverdichtung der Daten ist auf diesem Weg möglich.

Wenn Sie weitere Fragen zur Integration eines Data Lakes in eine bestehende DWH-Landschaft haben, stehen wir Ihnen gerne für eine persönliche Beratung zur Verfügung.