Magnus Reimann

Der vorherige Blogartikel (http://blog.oraylis.de/2015/05/kafka-und-flume-datenimport-im-groen-stil/) beschreibt, wie große Datenmengen in Hadoop gespeichert werden, doch wie greift man auf sie zu? Um in die Data Analytics-Welt abzutauchen, diese Daten also anschließend auszuwerten, gibt es mehrere Ansätze. Zunächst einmal bietet Hadoop dem Benutzer die Freiheit, diese Daten über selbst geschriebene Map/Reduce-Programme (bzw. Tez / Spark) zu analysieren, was jedoch sowohl sehr aufwendig ist als auch spezialisierte Entwickler benötigt. Apache Hive (mit einer Biene als Logo), ein Bestandteil der Hortonworks Distribution und der Hadoop-Cloud-Lösung HDInsight, öffnet diese Welt auch Anwendern ohne Programmierkenntnisse, indem sie die Daten über HiveQL abfragbar macht. HiveQL ist angelehnt an den SQL-92 Standard, der vielen Anwendern von relationalen Datenbanksystemen bekannt ist. Hive ermöglicht so einen einfachen Zugriff auf unstruktiert vorliegende Daten.

Im Gegensatz zu klassischen Datenbankmanagementsystemen arbeitet Hive „schema on read“: Wie die Daten interpretiert werden wird erst beim Lesen definiert. Davon abgesehen bietet es mit der Unterstützung von Indizes und JDBC/ODBC-Treibern für den Zugriff durch externe Anwendungen die gewohnte Usability.

Aktuell ist die Version 1.2 von Hive erschienen, die neben Performanceoptimierungen weitergehende Unterstützung des SQL-Standards bietet. Für erste Schritte eignet sich sehr gut der HDInsight Emulator von Microsoft (s. Link unten).

 

Links:

Hive 1.2: http://hortonworks.com/blog/announcing-apache-hive-1-2/
Hive with HDInsight: http://azure.microsoft.com/en-us/documentation/articles/hdinsight-use-hive/
HDInsight Emulator: http://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-emulator-get-started/