Andreas Auer

Der DFB-Pokal liefert eine perfekte Analogie zum allgegenwärtigen Thema Big Data. Warum sollen immer nur die Großen den Besten unter sich ausspielen? Vermeintlich kleine Vereine, nämlich mit geringem Budget, können auch Fußball spielen. Will sagen, dass nicht nur große, global agierende Unternehmen mit Ihren Petabyte an Datenvolumina „Big Data“ Technologien verwenden sollen, sondern auch kleine und mittlere Firmen. Schnelle, skalierbare, fast grenzenlose Datenanalyse zu betreiben, ist kein Privileg der Großen. Auch die Kleinen können ein Spiel lesen, den Gegner um grätschen, den perfekten Pass spielen und sich somit Vorteile im Wettbewerb erarbeiten.

Wenn der Bedarf besteht, aus den Datenbeständen einen Geschäftswert zu erwirken, dann muss man sich mit vier Schlüsseltechnologien auseinander setzen. Diese werden in der Folge erläutert und geben einen Denkanstoß, wie bezahlbare Lösungen im Umfeld von Big Data aussehen können. Dies sollte insbesondere für mittelständische Unternehmen, einzelne Geschäftseinheiten oder dem immer unter Kostendruck stehenden IT Bereich interessant sein.

Dauerhaftes Datenwachstum hat zwei maßgebliche Auswirkungen auf Unternehmen. Zum einen erhöht sich der Druck auf die bestehende IT Infrastruktur sowie deren Budgets. Zum anderen bieten die sich auftürmenden Datenmengen die Möglichkeit, neues Geschäft zu generieren. Folgende vier Technologien haben einen hohen Nutzen im Kontext von Big Data:

Integration

In den meisten Fällen verteilen sich Daten über verschiedenen Silos wie z.B. Datenbanken verbunden mit ERP oder CRM Unternehmenslösungen oder lokale Excel-files. Oft werden Datenquellen außerhalb der Unternehmensgrenzen genutzt, welche das Internet generiert. Hierzu gehören soziale Netzwerke, Blogs und weitere Plattformen zur Meinungsäußerung. Die damit einhergehende Komplexitätserhöhung macht es unerlässlich, Daten von einer Quelle in die andere zu bewegen. ETL (Extract, Transform, Load) kann hierbei als Prozess genutzt werden, bei welchem Daten aus mehreren ggf. unterschiedlich strukturierten Datenquellen in einer Zieldatenbank vereinigt werden.

In-Memory

Anwender wollen immer schneller mit Daten beliefert werden, um Ihre Geschäftsanalysen durchzuführen und qualitativ hochwertige Informationen zu erhalten. Somit ist die zeitnahe Verfügbarkeit von Daten ein Wettbewerbsvorteil, da hierdurch richtungsweisende Ableitungen und Maßnahmen getroffen werden können. Eine der effektivsten und schnellsten Technologien, um Daten zu prozessieren, ist In-Memory. Eine solche Lösung lädt die Zieldaten direkt in den Arbeitsspeicher (Random Access Memory) eines Servers oder Desktop Computers. Damit unterscheidet sich das In-Memory System von herkömmlichen Systemen, die dazu Festplattenlaufwerke verwenden. Die Zugriffsgeschwindigkeiten sind höher und die Algorithmen für den Zugriff sind einfacher. Unternehmen, die diese Technologie einsetzen, müssen zwar größere Datenvolumen betrachten, aber können auch einen viel höheren Anteil der eigenen Daten analysieren und bewerten. Die Wahrscheinlichkeit, eine Fragestellung richtig zu beantworten, stellt sich als viel größer dar.

Struktur

Neben strukturierten Daten aus Datenbanken ist die große Stärke des Big Data Ansatzes eine Nutzung von unstrukturierten und semi-strukturierten Daten aus Dokumenten, sozialen Netzwerken, E-Mails, News Feeds, Bildern, Videos oder anderen Rich-Media-Inhalten. Mit Apache Hadoop als open-source (Java) Framework kann hier eine skalierbare, verteilt arbeitende Software zum Datenmanagement genutzt werden. Diese basiert auf dem bekannten MapReduce-Algorithmus von Google Inc. und ermöglicht intensive Rechenprozesse mit großen Datenmengen auf Computerclustern. Der frei verfügbare Code, welcher auf Standardhardware läuft, belastet entsprechend wenig das Budget.

Visualisierung

Sobald eine wertvolle Information aus den Datenbeständen abgeleitet oder identifiziert wurde, müssen diese leicht zugänglich anderen Nutzergruppen zur Verfügung gestellt werden. Dies Bedarf im besten Falle einer eingängigen Visualisierung in Form von Reports oder Dashboards. Eine solche Visualisierung sollte sich automatisiert updaten, wenn der Nutzer Parameter ändert oder Drill-Downs auf zugrunde liegende Daten macht. Ein deutlich ablesbarer Trend im Business Intelligence Umfeld ist weg von statischen Reporting aus den Händen der IT hin zu mehr Selbständigkeit des Nutzers von Daten. Dies wird im Big Data Umfeld sogar noch verstärkt, da die entstehende Komplexität den IT Ressourcen alles abverlangt und das Management von Business Intelligence durch die IT mehr und mehr unattraktiv wird. Lösungen, die es den Endanwendern direkt ermöglichen, Daten zu sondieren erhöhen die Wahrscheinlichkeit, die Fragen zu beantworten, die zu Wettbewerbsvorteilen führen.

Zusammenfassend kann gesagt werden, dass Big Data Initiativen nicht nur den global agierenden, großen Unternehmen vorbehalten ist. Auch schon mit schmalen Budgets unter zu Hilfenahme der oben beschriebenen Technologien können die Schätze gehoben werden, die für das Unternehmen wertvoll sind. Heute verfügbare Datenmanagement-Systeme vereinen häufig die 4 aufgeführten Technologien.