Michael Schmahl

Die Integration von Unternehmensdaten in ein zuvor erstelltes Datenmodell zählt zu den wichtigsten Maßnahmen beim Aufbau und Betrieb einer Data Analytics Platform. Konkret werden die vorhandenen – meist inhomogenen – Quellsysteme im Rahmen zuverlässiger und erweiterbarer Ladeprozesse möglichst intelligent zusammengeführt und in einer zentralen Datenbank dem Nutzer bereitgestellt. Somit sorgt eine kompetente Data Integration für eine hohe Datenqualität, Performance und Sicherheit. Als wiederkehrender Prozess gewährleistet die Data Integration, dass den Nutzern stets aktuelle Daten für die Entscheidungsfindung zur Verfügung stehen.

ETL und ELT

Bei dem Prozess der Datenintegration wird zwischen ETL und ELT unterschieden. ETL steht für Extract, Transform, Load. Dabei bezeichnet Extract die Verbindung zu den Quellen, Transform die Aufbereitung der extrahierten Daten sowie Load die Überführung in das Zielsystem. Das Intervall zwischen zwei ETL-Prozessen wird entsprechend der Anforderung gewählt. Es kann von einem monatlichen Turnus bis hin zu „Near-Realtime“ – also wenigen Minuten – reichen. In der Praxis hat sich eine tägliche Verarbeitung etabliert. Neben dem Intervall kann sich auch die Menge der extrahierten Daten je nach Quelle oder Geschäftsprozess stark unterscheiden. Um den Anforderungen an das gewählte Intervall und der zu ladenden Datenmenge gerecht zu werden, gibt es verschiedene Verfahren zur Datenextraktion. Die einfachste Variante ist die vollständige Extraktion. Werden Datenmengen und Laufzeiten zu groß, können die Daten auch schrittweise extrahiert werden. Daneben gibt es ereignisgesteuerte Verfahren, bei denen auftretende Änderungen im Quellsystem den ETL-Prozess auslösen.

ETL-Prozess im Rahmen von Data Integration.

Extract, Transform, Load – oder kurz: ETL – ist eine Variante für Data Integration. (Grafik: ORAYLIS GmbH)

Auf den ELT-Prozess wird indes verstärkt zurückgegriffen, wenn Big Data in ein hoch performantes Zielsystem integriert werden sollen, das im Idealfall nach dem MPP-Ansatz (Massive Parallel Processing) arbeitet. Wie die Abkürzung bereits nahelegt, werden hier die Daten aus der Quelle extrahiert und direkt geladen. Die eigentliche Transformation erfolgt anschließend in besagtem Zielsystem.

Einfache Data Integration mit SSIS

ORAYLIS nutzt bei der Data Integration bevorzugt die Integration Services (SSIS) des SQL Servers. Das leistungsfähige ETL-Tool unterstützt die Anbindung von einer Vielzahl an Quellen. Darüber hinaus bietet SSIS ein ausgereiftes Workflow-Management, mit dessen Hilfe umfangreiche ETL-Strecken abgebildet werden können. Mit den ORAYLIS Tools „BI.Quality“ und „BI.Monitor“ sorgen wir für eine zusätzliche Steigerung der Datenqualität und Betriebssicherheit bei SSIS-gestützte ETL-Prozessen. Wenn Sie weitere Informationen zum Thema wünschen, stehen wir Ihnen gerne für eine persönliche Beratung zur Verfügung.