Automatisierte Vorhersagetechnik
Ein Big Data Case

Marco Pospiech

Big Data impliziert eine gesteigerte Verfügbarkeit von strukturierten und unstrukturierten Daten zur zweckgerichteten Verarbeitung [1]. Ein mögliches Szenario ist die automatische Preisvorhersage anhand von unterschiedlichen Datenquellen. Wenige Ansätze berücksichtigen Nachrichten und noch weniger eine gemeinsame Auswertung mit geschäftsspezifischen Einflussfaktoren in Echtzeit. Informationsüberflutungen und unvollständige Analysen sind mögliche Folgen. Dieser Beitrag erarbeitet eine automatische Vorhersagemethode. Verknüpft mit damaligen Kursverlauf und marktspezifischen Einflussfaktoren entstehen Hinweise auf den zukünftigen Kursverlauf. Clustertechniken adressieren den enormen Suchaufwand. Leistungsfähigkeit und Nützlichkeit der Methode sind Gegenstand der Evaluierung.

Forschungen zeigen, dass Märkte sensibel und beschleunigt auf relevante Nachrichten reagieren [2]. Gemeinsam mit Daten marktspezifischer Einflussfaktoren (Wetter, Ölpreise etc.) zeichnen Nachrichtentexte vollständige Entscheidungssituationen ab. Dennoch erfolgt deren Textanalyse oftmals manuell, wenngleich die bestehenden automatischen Verfahren lediglich strukturierte Informationen betrachten. Die Gefahr einer dadurch entstehenden Informationsüberflutung und kaum vollständig ausführerbarer Analysen ist dadurch immanent existent [3].

Basierend auf dem Paradigma des fallbasierten Schließens, lassen sich historische Erfahrungen zur Lösung eines neuen Problems mit einem vergleichbaren Kontext nutzen [4]. In diesem Zusammenhang identifiziert der folgende Vorhersageansatz, ausgehend von einem aktuell eingehenden Nachrichtenticker, den historisch Ähnlichsten. Zusammen mit dem damaligen Kursverlauf und den marktspezifischen Einflussfaktoren werden dem Entscheidungsträger eine umfassende historische Situation und deren damit verbundenen Effekte aufgezeigt. Der Vergleich zur aktuellen Nachricht gibt Hinweise auf den zukünftigen Kursverlauf. Die aufwendige Suche bei hohem Dokumentenaufkommen wurde in der Vergangenheit durch Clustertechniken verringert [5]. Als problematisch erweist sich dabei jedoch das erforderliche Modelltraining. Traditionelle Technologien erfordern Bearbeitungszeiten von mehreren Wochen. Infolgedessen lassen sich aktuelle Nachrichten nicht mehr zeitgerecht  in einem erneuten Training berücksichtigen. Am Beispiel des Gasmarkts verdeutlich dieser Beitrag, wie moderne Big-Data-Technologien Abhilfe schaffen können, wobei explizit die Verarbeitungszeit und Nützlichkeit im Rahmen der Evaluierung Beachtung finden.
 

Status quo

Zurückliegend zeigen insbesondere Zeitreihenanalysen eine starke Dominanz in der Umsetzung von Preisvorhersagen. Später erlaubten Data-Mining-Algorithmen in Form von Support Vector Machines oder Künstlich Neuronalen Netzen Trendklassifikationen oder exakte Preisvorhersagen. Lange erfuhren unstrukturierte Daten keine Beachtung [3]. Erst Text Mining überführte Texte beispielsweise in den Vektorraum, um Dokumente automatisiert auswertbar zu machen [6]. Dennoch sind alle Ansätze in der Regel auf firmenspezifische Nachrichten beschränkt und benötigen aufwändiges Expertenwissen im Modelltraining. Noch weniger Verfahren verfolgen eine gemeinsame Verwendung strukturierter und unstrukturierter Daten, so dass die vollständige Erfassung einer Situation nur schwer möglich ist. Die zusätzliche Konzentration aller Konzepte auf die Prognose von Intervallen resultiert in einer mangelhaften Verarbeitungszeit und verringert den Vorteil einer automatisierten Analyse, da der Wert einer Information nach Veröffentlichung rapide fällt [3].

Bild 1: Identifikation der historisch ähnlichsten Nachricht.

Das hier vorgestellte Verfahren adressiert die dargestellten Defizite. Der Ansatz verknüpft strukturierte und unstrukturierte Daten, ist wartungs- und pflegearm, textunspezifisch und arbeitet in Echtzeit.
 

Identifikation der historisch ähnlichsten Nachricht

Ähnlichkeit oder Unterschiede zwischen Dokumenten lassen sich durch das gemeinsame Auftreten von Wörtern oder Phrasen in einem Dokument bestimmen [8]. In diesem Zusammenhang erfolgt die Transformation der historischen und aktuellen Dokumente mittels Term Frequency Inverse Document Frequency innerhalb des Vektorraums [7]. Für die Berechnung der Ähnlichkeit existieren verschiedene Möglichkeiten. Die Kosinus-Ähnlichkeit ist etabliert [8] und dient als Grundlage für den paarweisen Vergleich. Dabei ist zu beachten, dass die Gegenüberstellung eines aktuellen Nachrichtentickers zu allen historischen Dokumenten zeit- und berechnungsintensiv ist. Das hier vorgestellte Vorgehen (Bild 1) löst diese Herausforderung mittels Clusterung [5] und dem K-Means Algorithmus, der im Vergleich zu anderen Clusterverfahren Vorteile hinsichtlich Berechnungszeit und Ergebnisgüte zeigt [9].

Hierbei sind historische Dokumente einer zuvor festgelegten Menge an Cluster zuzuordnen. Gemittelte Zentroidvektoren repräsentieren die zugewiesenen Nachrichten in jedem Cluster. Anschließend erfolgt mit Hilfe der Kosinus-Berechnung die Ähnlichkeitsbestimmung zwischen Dokument- (aktueller Ticker) und Zentroidvektoren. Der Zentroidvektor mit der geringsten Abweichung ist dem aktuellen Nachrichtentickers am ähnlichsten. Da das beigeordnete Cluster die historisch ähnlichsten Nachrichten aufweisen sollte, werden zugehörige Dokumente aus der Dokumentenkollektion extrahiert und wiederum verglichen. Der Vektor mit den geringsten Abweichungen ist die historisch ähnlichste Nachricht. In diesem Rahmen sind lediglich die Zentroiden und das zugehörige Cluster abzugleichen. Eine Analyse des gesamten Datenbestands bleibt aus, sodass sich Zeit und Ressourcen reduzieren lassen.
 

[ Wenn Sie den kompletten Beitrag lesen möchten, klicken Sie hier ]

Das könnte Sie auch interessieren: Business Analytics als strategisches Werkzeug