Babak Bastan

Ein statistisches Modell für Predictive Analytics versucht stets, ein sinnvolles Verhältnis zwischen Variablen bzw. realen Ereignissen aufzudecken. Diese Variablen lassen sich in zwei Gruppen kategorisieren. Da sind zum einen in die Response-Variablen, die vorhergesagt werden sollen. Zum anderen gibt es sogenannte Predictor-Variablen, die für die Vorhersage der Response-Variablen genutzt werden können, da sie einen direkten Einfluss auf selbige ausüben. Mit Cross Correlation existiert nunmehr eine Vorgehensweise, die etwaige Verbindungen zwischen Daten identifiziert, sodass diese im Weiteren für Predictive Analytics verwendet werden können.

Cross Correlation und Predictive Analytics

In der Statistik kann durch Kovarianz bestimmt werden, ob zwei Parameter mit unterschiedlichen Einheiten miteinander verbunden sind oder nicht (z. B. die Anzahl der Fußballzuschauer in einem Stadion innerhalb eines Monats). Die Kovarianz darf jedoch nicht das genaue Verhältnis festlegen, da unterschiedliche Einheiten zusammenspielen. Für die Bestimmung des Verhältnisses ist die Kovarianz nicht geeignet, aber durch Korrelation kann dieses Verhältnis festgelegt werden. Die Korrelation zwischen x und y wird wie folgt definiert:

Correlation-DefinitionDie Berechnung der Korrelation zwischen den zwei Sammlungen :
Set-Xund

Set-Y

mit n-Betrachtungen erfolgt durch:

Correlation-Formula-1

Für  h =0, +1, +2, +3,…, n-1 und:

Correlation-Formula-2

Für h = -1, -2, -3, …, -(n-1)

In beiden Formeln bilden  und  den Mittelwert für die Sammlungen X und Y. Das Ergebnis dieser Berechnung bestimmt den Grad der Korrelation zwischen X und Y für h =0, ±1, ±2, ±3,…, n und heißt Korrelationskoeffizient am Lag h. Zum besseren Verständnis der Relation zwischen den Korrelationskoeffizienten können alle in einem Diagramm – dem Korrelogramm – dargestellt werden. Mit Hilfe dieser Grafik lässt sich feststellen, ob eine Variable als Predictor der anderen Variable entspricht.

Durch ein einfaches Beispiel wird die Verwendung des Korrelogramms in Predictive Analytics verständlicher: Wurde die Anzahl der Fußballzuschauer in den letzten drei Jahren für jeden Monat erfasst und in einer Tabelle in MS-SQL-Server gespeichert, dann gilt es herauszufinden, ob die Zuschaueranzahl auf der Monatsbasis bestimmt werden kann – oder anders gesagt: ob „Monat“ als Predictor für die Anzahl der Fußballzuschauer geeignet ist.

Cross Correlation kann in R durch die Funktion CCF, die auch automatisch ein Korrelogramm generiert, im Standard-Paket stets angewendet werden. Die nötigen Daten, die in diesem Beispiel in einer Tabelle gespeichert worden sind, werden mittels eines RODBC-Pakets in der R-Umgebung durch eine SQL-Abfrage abgerufen.

 

Nachfolgend ist das generierte Korrelogramm durch CCF für dieses Beispiel abgebildet:

Correlogram Predictive Analytics

 

Interpretation des Korrelogramms

Wie bereits erläutert, wird die Korrelation zwischen X vor der Zeit t und Y in der Zeit t kalkuliert, falls h < 0 auf der X-Achse im Korrelogramm ist. Wenn mehrere Korrelationskoeffizienten für h < 0 außerhalb der blauen Linien (Konfidenzbänder) im Korrelogramm liegen, dann ist X ein Predictor für Y. (Je mehr sich die Korrelationskoeffizienten für h < 0 außerhalb des Konfidenzbandes befinden, desto höher ist die Wahrscheinlichkeit, dass X ein Predictor für Y ist.)

Im obigen Beispiel, aus dem hervorgehen soll, ob „Monat“ ein Predictor für die Zuschaueranzahl ist oder nicht, wird das Korrelogramm betrachtet, wenn h < 0. Auf dieser Seite des Korrelogramms beträgt der größte Korrelationskoeffizient  Lag-11  0.618. Zwischen den Monaten, die eine ähnliche Zuschaueranzahl verzeichnen, liegen jeweils elf Monate. Das heißt, die Anzahl der Zuschauer im aktuell betrachteten Monat Yt korreliert mit dem Monat Xt-12. (In den beiden erwähnten Monaten tritt eine ähnliche und nicht identische Zuschaueranzahl auf, da der Korrelationskoeffizient für Lag-11 nicht gleich 1 ist.)

Durch dieses Korrelogramm kann festgestellt werden, dass „Monat“ ein zuverlässiger Predictor für die Anzahl der Fußballzuschauer ist und es möglich ist, die Anzahl der Zuschauer in Zukunft relativ gut abzuschätzen.