Michael Schmahl

Hadoop gilt als eine der wichtigsten Lösungen für den Umgang mit Big Data. Das javabasierte Open-Source-Framework existiert in diversen Distributionen. Es umfasst verschiedene Services und Tools für die Speicherung, das Management sowie die Analyse von strukturierten und unstrukturierter Massendaten. Die Kernelemente sind:

  • Hadoop Distributed File System (HDFS) für die langfristige Speicherung großer Datenmengen
  • Yet Another Resource Negotiator (YARN) für die Ressourcen- und Jobverwaltung der Analysen
  • MapReduce für die weitere Verarbeitung der Daten.

Die Popularität von Hadoop ist vor allem auf die flexiblen Einsatzmöglichkeiten sowie die geringen Kosten zurückzuführen. Hadoop kann lizenzfrei und auf Standard-Hardware betrieben werden. Aufgrund der offenen Entwicklungsumgebung existieren für verschiedenste Praxisszenarien passende Lösungsbausteine. Infolgedessen können Unternehmen schnell und unkompliziert in die Big-Data-Thematik einsteigen und davon profitieren.

Hadoop „On-Premise“

Vor Hadoop waren Supercomputer und teure Spezialhardware erforderlich, um große Datenmengen performant verarbeiten zu können. Hadoop verteilt nunmehr intensive Rechenprozesse im Kontext von Big Data auf verschiedene Server bzw. ein Cluster konventioneller Computer. Auf diese Weise lassen sich selbst Petabyte an Daten mit verhältnismäßig geringem Budget bewältigen. Allerdings verlangt der Betrieb „On-Premise“ – also auf lokalen Ressourcen – neben der entsprechenden Hardware auch technisches Know-how. Heißt: Es muss Mitarbeiter geben, die Hadoop einrichten, anpassen und warten können. Einfacher und kostengünstiger sind Hadoop-Dienste in der Cloud.

Hadoop in der Cloud

Um aus Big Data neue Erkenntnisse für valide Geschäftsentscheidungen ziehen zu können, werden traditionelle und neue Analysemethoden intelligent miteinander kombiniert. Es gilt also, Big Data mit Technologien wie Hadoop optimal  in eine einheitlich Data Analytics Platform zu integrieren. ORAYLIS nutzt hierfür vorwiegend Azure HDInsight, Microsofts Cloud-Variante von Hortonworks´ Hadoop. Damit steht das vollständige Leistungsspektrum von Hadoop zur Verfügung. Hinzu kommen folgende Vorteile:

  • Microsoft Excel, lokale Hadoop-Cluster sowie die Microsoft-Umgebung mit Unternehmenssoftware und -diensten, wie CRM Online, lassen sich integrieren.
  • Hadoop-Cluster können in wenigen Minuten sowie ohne Vorlaufkosten aufgesetzt und beliebig skaliert werden.
  • Erforderliche Kapazitäten werden „On-Demand“ in Anspruch genommen und bezahlt.
  • Managed Services verringern den Aufwand für Updates und Wartungstätigkeiten auf ein Minimum.

In unserem Discovery Workshop können Sie Cloud-Dienste für Big Data näher kennenlernen und deren Einsatz in Ihrem Unternehmen bewerten.