Magnus Reimann

Mit Data Lake führt Microsoft einen weiteren Azure-Dienst ein, um sich auf den wachsenden Bedarf an Big Data-Anwendungen in der Cloud einzustellen.

Data Lake ist Microsofts Implementierung von HDFS, dem Hadoop Distributed File System, das z.B. auch in Hadoop-Distributionen von Hortonworks und Cloudera für die Speicherung großer Datenmengen zum Einsatz kommt und neben HDInsight auch durch diese genutzt werden kann.

In diesem Datenspeicher lassen sich Unternehmensdaten aller Art in ihrem ursprünglichen Format abgelegen und in späteren Fragestellungen analysieren. Dabei bietet Data Lake die Vorzüge von Cloud-Lösungen wie nicht vorhandene Hardwareanschaffungskosten sowie unbegrenzte Skalierbarkeit und umgeht im gleichen Atemzug die Limitationen des Azure Blob Storages, der auf 500 TB pro Account bzw. 5 TB pro Datei begrenzt ist. Neben einer Optimierung auf hohen Durchsatz und parallele Zugriffe profitiert man von einer automatischen Replikation – bei Bedarf auch geo-redundant – und einer Kontrolle der Dateisystemrechte über das Azure Active Directory.

Data Lake lässt sich bereits jetzt als öffentliche Vorschau in HDInsight testen – Unterstützung für weitere Azure-Dienste wie Stream Analytics, Azure ML oder auch Data Factory folgt.

 

Links:

http://azure.microsoft.com/en-us/campaigns/data-lake/