Babak Bastan

Autoregressive Integrated Moving Average – oder kurz: ARIMA – ist eine Prediction-Methode, die der Vorhersage komplizierter Zeitreihen dient. Umgesetzt wird ARIMA über ein mathematisches Modell. In einem vorangegangenen Artikel habe ich bereits eine einfache Prediction-Vorgehensweise durch Autokorrelation für eine sehr kurze Zeitreihe durchgespielt. Diese Zeitreihe beinhaltete ganz eindeutige Wiederholungen eines Musters ohne Störungen. In der Praxis enthalten Zeitreihen aber meist mehrere schwache Muster und Störungen. Entsprechend sind diese weitaus komplizierter zu handhaben.

Im Folgenden möchte ich anhand eines Beispiels aus dem Gesundheitswesen erläutern, wie sich zuküntige Werte in einer komplizierte Zeitreihen mit Hilfe eines ARIMA-Modells vorhergesagen lassen.

Anforderungen an das Modell

Zielsetzung des Modells ist es, auf Basis der historischen Daten einer Zeitreihe zukünftigen Werte vorherzusagen. Darüber hinaus sollten sich besondere Eigenschaften von Zeitreihen – wie zum Beispiel Trends und Störungen – erkennen lassen. Nicht zuletzt sollte das Modell mit diesen Besonderheiten umgehen können und diese in die Vorhersage einbeziehen.

Aufbau von ARIMA

ARIMA erfüllt die vorgenannten Anforderungen, indem drei verschiedene Modelle kombiniert werden.

Autoregressive Model:

Autoregressiv oder AR ist eine Methode, die den aktuellen Wert einer Zeitreihe mit Hilfe einer bestimmten Anzahl der letzten Werte in derselbe Zeitreihe berechnen kann. Der Autoregressiv-Prozess der Ordnung p, AR(p) kann wie folgt definiert werden:

AR

ωt steht in diesem Kontext für eine Störung.

 

Moving Average Model:

Der aktuelle Wert in einer Störung (White Noise) kann als lineare Kombination aus den letzten Werten in dieser Störung kalkuliert werden. MA(q) wird wie folgt definiert:

MA

Integrated Model:

Eine Zeitreihe ist stationär, wenn besondere Eigenschaften – wie Mittelwert, Varianz und Autokorrelation – konstant bleiben. Ist dies der Fall, können entsprechende Werte vorhergesagt werden. Was aber ist mit nicht stationären Zeitreihen? Durch eine mathematische Transformation (Differencing) kann eine nicht stationäre Zeitreihe in eine stationäre gewandelt werden. Dabei wird das Integrated Model der Ordnung d für eine Zeitreihe xt definiert, wenn die dte Durchführung von Differencing für die Zeitreihe stationär ist.

Durch die Kombination der drei Modelle zu ARIMA kann eine Prediction-Vorgehensweise bei fast allen Zeitreihen durchgeführt werden. Die einzelnen Methoden benötigen entsprechende Eingabeparameter, weshalb Autoregressive Integrated Moving average als ARIMA(p,d,q) definiert wird.

Definition der Parameter

Für die Bestimmung dieser Parameter kann Autokorrelation und Partial-Autokorrelation verwendet werden. Dies verdeutlicht ein Szenario aus dem Gesundheitswesen:

Wir wollen die Anzahl der Grippe-Patienten in einem Land für die nächsten acht Monate vorhersagen. Hierfür stehen uns Daten von 2009 bis November 2016 zur Verfügung.

Rohdaten-Plot

Um zu ermitteln, ob die Zeitreihe stationär ist oder nicht, nutzen wir ein Autokorrelation-Diagramm. Eine Zeitreihe ist nicht stationär, wenn sich die Werte der Autokorrelationskeffizienten, die außerhalb des Konfidenzbandes bzw. der blauen Linie liegen, ab Lag-0 verringern. In  unserem konkreten Fall ist ein solches Muster nicht zu sehen – sprich: Die Zeitreihe stationär, sodass ein Differencing entfällt. Somit ist d gleich 0.

ACF-PACF-ARIMA-Parameter

Die beiden Parameter p und q  werden nunmehr durch signifikante Koeffizienten sowie deren Zusammenhang mit anderen Koeffizienten im Autokorrelation- und Partial-Autokorrelation-Diagramm definiert. Laut Univariate Box-Jenkins ARIMA Models beträgt die optimale Anzahl der Koeffizienten in beiden Diagrammen n/4, wobei n die Länge der Zeitreihe abbildet.

Die folgende Tabelle fasst zusammen, wie beide Parameter p und q gedeutet werden können:

 

AR (p) MA(q) ARMA(p,q)
ACF Nimmt ab Abgeschnitten nach Lag q Nimmt ab
PACF Abgeschnitten nach Lag P Nimmt ab Nimmt ab

 

In unserem Fall nehmen die Lags sowohl in ACF als auch in PACF kontinuierlich ab. Somit entspricht das Beispiel dem Modell ARMA(p,q). In ACF sind neben Lag 0, der immer 1 ist, Lag 3, 6, 9 und 12 signifikant. Daraus ergibt sich eine Saisonalität mit Faktor drei. Außerdem ist Lag 3 in PACF signifikant, sodass das saisonale Modell ARIMA(3,0,0)(0,0,4)3 als Prediction-Modell umgesetzt werden kann. Da kein Differencing erfoderlich ist, beträgt d=0. Indes ist MA=4, da vier signifikante Lags in ACF aufgetaucht sind.

Alles in allem sehen dann Vorhersagen für die nächsten acht Monate wie folgt aus:

Predition-durch-ARIMA

Das gesamte Prediction-Verfahren kann durch das folgende R-Pseudocode konzipiert werden: