Regionale Meinungs- und Stimmungsanalyse aus heterogenen Datenquellen

Dienstag, 9. Juni 2015 at 16:45

Viele Manager werten eine Stimmungsanalyse aus

Hallo liebe Leser,

Hyperpersonalisierung ist ein Buzzword, das gerade im Marketing kursiert. Angebote noch individueller auf den Kunden zuzuschneiden ist die Idee dahinter. Aber auch im Bereich Location Based Services wünschen sich Nutzer solcher Dienste immer mehr individualisierte Suchergebnisse. Google nutzt dazu beispielsweise die Informationen aus unseren Google Profilen, um die Suchergebnisse besser auf uns zuschneiden zu können. Neben dem Auswerten von Profildaten gibt es auch die Möglichkeit mittels einer Analyse von Meinungen und Stimmungen aus verschiedenen Datenquellen Trends zu erkennen und diese in die Suchergebnisse einfließen zu lassen. Genau damit habe ich mich in meiner Master-Thesis beschäftigt.

Grundlagen & Chancen der Stimmungsanalyse

Die Gesellschaft unterliegt einem ständigen Wandel. Diese Erkenntnis ist bereits zur Binsenweisheit geworden. Es besteht gemeinhin großes Interesse, diesen Wandel zu erkennen, da sich hieraus Chancen für unterschiedlichste Interessengruppen ergeben. Zu diesen gehören Unternehmen, politische Parteien oder auch wissenschaftliche Institutionen. Ein Unternehmen ist beispielsweise daran interessiert zu erkennen, ob eines ihrer Produkte noch immer die notwendige Anerkennung in der Gesellschaft erfährt. Eine politische Partei möchte die politischen und gesellschaftlichen Interessen der eigenen Wählerschaft und deren Wandel im Laufe der Zeit  erkennen, um zu gegebener Zeit das Parteiprogramm an die Veränderungen anzupassen.

Regionale Meinungs- und Stimmungscluster zur Stimmungsanalyse

Mit Hilfe des entwickelten Verfahrens lassen sich Meinungs- und Stimmungscluster entdecken, die in verschiedenen Regionen unterschiedlich ausgeprägt sein können

Eine Chance entsteht dabei immer genau dann, wenn Veränderungen rechtzeitig erkannt werden und notwendige Eingriffe daraus resultieren. Eine Möglichkeit, die Wahrnehmung über bestimmte Dinge und die Veränderung dieser Wahrnehmung in der Gesellschaft zu erkennen, besteht darin, Meinungen und Stimmungen auf geeignete Weise zu analysieren. Da manuell durchgeführte Umfragen sehr aufwendig sind und zur Erkennung von Trends innerhalb dieser immer mindestens zwei Umfrage durchgeführt werden müssen, ist es notwendig, andere Ansätze zur Detektion von Meinungen und Stimmungen zu wählen. Ein solcher Ansatz besteht darin, hierfür die massenhaft anfallenden Daten im Internet aus Social Media, wie z.B. Twitter und Facebook, aus Community-Projekten wie Wikipedia und OpenStreetMap sowie öffentliche Daten (Open Data und Open Government Data) zu verwenden.

Meine Master-Thesis zur Stimmungsanalyse

Für die  Meinungs- und Stimmungsanalyse aus einer Vielzahl von heterogenen Daten habe ich einen komplexen Verarbeitungsprozess entwickelt, der alle notwendigen Daten aus dem Internet herunterlädt und auf ein Format bringt, das die Verarbeitung durch Algorithmen ermöglicht. Alle verwendeten Datenquellen, z.B. Tweets, lassen sich auf einen durch einen User erzeugten Freitext sowie eine Koordinate, die den erzeugten Text eindeutig auf einer Landkarte referenziert, reduzieren. Dabei ist es wichtig, dass die gesammelten Daten keinen konkreten Personen mehr zugeordnet werden dürfen (Anonymisierung). Alle Texte werden durch verschiedene Algorithmen auf ihren Inhalt überprüft, um computergestützt das Thema des Textes zu erkennen. Hierfür sind Verfahren aus dem Bereich des Natural Language Processing notwendig. Mit einem weiteren Verfahren, das als Locality-sensitive hashing bezeichnet wird, werden alle Datenelemente zusammengeführt, die das gleiche Thema behandeln. Um nicht nur Spezialthemen zu erkennen, wurde eine Wissendatenbank erzeugt, die dazu in der Lage ist, höhere thematische Abstraktionsebenen zu erkennen. Damit kann in einem Text beispielsweise nicht nur erkannt werden, dass der User derzeit über den neuen BMW i3 redet, sondern auch, dass es sich dabei um ein Elektroauto handelt, das wiederum in das größere Gebiet der Elektromobilität eingeordnet werden kann. Mit Hilfe eines trainierten Klassifikators kann für jedes Datenelement bestimmt werden, ob der User eine positive, negative oder neutrale Aussage getroffen hat. Dieser auf dem Bayes-Theorem basierende Klassifikator ist in der Lage mit einer Genauigkeit von etwa 80% den Stimmungswert eines Datenelementes zu bestimmen. In einem letzten Verarbeitungsschritt werden die auf diese Weise gefundenen Meinungs- und Stimmungscluster durch einen Cluster-Algorithmus in regionale Teilgebiete eingeteilt. Dadurch lassen sich Themen erkennen, die in unterschiedlichen Regionen, z.B. in verschiedenen Stadtteilen, ganz unterschiedliche Meinungen und Stimmungen aufweisen.

ITB Messe in Berlin als Beispiel für die Stimmungsanalyse

Das Verfahren ermöglicht es, regionale Ereignisse ohne zusätzliches Expertenwissen automatisch zu erkennen, die einem User als Dienst zur Verfügung gestellt werden können.

Das klingt alles schön und gut, nur welche Anwendungfälle können damit behandelt werden? In meiner Master-Thesis lag der Fokus auf Entwicklungen von Location-Based-Service-Betreibern, wie auch YellowMap einer ist. Ich konnte unter anderem zeigen, dass die erzeugten Daten und Analysen dafür verwendet werden können, wichtige aktuelle und regionale Ereignisse ohne zusätzliches Expertenwissen zu erkennen, um diese einem User in Form eines Dienstes vorzuschlagen. Auf diese Weise können lokale Suchanfragen um automatisch erkanntes regionales Wissen erweitert werden, um dem Nutzer noch schlauere und für ihn relevantere Ergebnisse zu liefern.

Mit diesem Verfahren zur Stimmungsanalyse können außer diesen noch weitere Informationen gewonnen werden. Darüber werde ich in Zukunft noch berichten.

Bis dahin,
Thorsten

Thorsten Zylowski

Thorsten Zylowski

Thorsten ist ein Quell von Expertenwissen. Schon das Thema seiner Bachelorarbeit – ein softwarebasierter Qualitätsvergleich zwischen kommerziellem und OSM-Kartenmaterial sowie dessen Umsetzung zeigen deutlich, dass er intellektuell keine kleinen Brötchen backt. Auch alles was er sagt ist zumeist clever und durchdacht, allerdings auch äußerst selten. Anfangs dachte ich, es sei Schüchternheit, aber inzwischen drängt sich mir der Verdacht auf, dass dahinter das simple ökonomische Prinzip "Knappheit bestimmt den Preis" steckt.
Thorsten Zylowski

Letzte Artikel von Thorsten Zylowski (Alle anzeigen)