Daniel Esser

Google, Facebook, AOL, IBM, Yahoo sind große Namen und alle verwenden das quelloffene Framework für skalierbare, verteilt arbeitende Software Apache Hadoop. Intensive Rechenprozesse auf großen Datenmengen im Petabyte-Bereich werden auf Computerclustern durchgeführt. Die Frage die sich stellt ist lässt sich Hadoop auch für typische Business Intelligence Workloads verwenden? Ich denke die Frage kann mit ja beantwortet werden. In den kommenden Beiträgen möchte ich Praxisbeispiele für Hadoop und den Microsoft BI Stack vorstellen.

Die erste Frage die sich stellt ist wie sich ein geeignete Spielumgebung aufbauen lässt. Relativ einfach kann dies mit den fertigen Virtuellen Computern von Hortenworks realisiert werden. Möchte man eine Ebene höher gehen bietet sich auch Azure für ein realistischere Testumgebung an. Hier kommt auch der Umstand zum tragen, dass viele Dienste aus dem MS BI Stack mit Hadoop kombiniert werden können.

Zunächst kann man mit dieser Anleitung und einem Azure Account binnen 10 Minuten ein Hadoop Cluster mit 5 Knoten aufgebaut werden:

http://bit.ly/1zG3Uzh

Wenig später wird man durch den Login von Ambari begrüßt. Ambari kann dabei helfen den Cluster vollständig aufzubauen. Durch die Angaben die wir im Azure Portal gemacht haben wird allerdings die Installation vollständig automatisch durchgeführt. Dies wird uns durch eine volle Service-Leiste quittiert: HDFS, YARN, MapReduce2, Tez, HBase, Hive, WebHCat, Falcon, Storm, Oozie, Ganglia, Nagios, ZooKeeper, Pig und Sqoop. Ein Blick auf die Hosts-Seite zeigt uns, dass wir 5 Knoten im Cluster haben auf dem unterschiedliche Dienste laufen.

Google ChromeScreenSnapz001

Google ChromeScreenSnapz001