Blog-Eintrag -

Wenn zugleich, dann deswegen? Falsch! Big Data und das Problem von Kausalität und Korrelation

Wer sich irgendwann in seinem Leben länger mit Statistiken und dem Auswerten von Daten beschäftigt hat, kennt den Satz: „Korrelation bedeutet nicht Kausalität.“ Im Englischen ist die Formulierung „Correlation does not imply causation“ fest verankert, der Fehlschluss wird meist lateinisch formuliert: „Cum hoc ergo propter hoc“ (lat.: „Wenn zugleich, dann deswegen“).

Daten-Analysten sind sich also sicher bewusst, dass zwei Ereignisse nicht zwingend Ursache und Wirkung sind, nur weil sie häufig zusammen auftreten. Denn genau das ist der Unterschied zwischen Kausalität und Korrelation: Wenn A aus B folgt, spricht man von Kausalität. Wenn A und B nur häufig zusammen beobachtet werden, liegt eine Korrelation vor.

Oft wird direkt nach dieser Erklärung die ganze Sache an einem Beispiel ad absurdum geführt. Etwa: der Zusammenhang von Eiscreme-Verkäufen und Todesfällen durch Ertrinken. Hier wird schnell klar, wie unsinnig es ist, die Eisverkäufe als Ursache für das Ertrinken zu vermuten, auch wenn die mathematische Ähnlichkeit der Datensätze eine solche Schlussfolgerung nahelegen würde.

Es gibt jede Menge weitere Beispiele, und viele sind ziemlich unterhaltsam, etwa die Scheidungsrate in Maine, die immerhin eine Korrelation von 99 Prozent zum Margarinekonsum in den USA aufweist. Tyler Vigen, der an der Harvard University Jura studiert, hat solche Beispiele zu einem Buch zusammengefasst.

Schokolade führt zu Nobelpreisen

Was wir bisher gesagt haben, könnte sich in jedem Statistik-Seminar abgespielt haben: Das Phänomen wird erklärt und benannt, im Anschluss spricht man über den Eiscreme-Fall, man lacht und ist sich sicher, dass einem das nie unterlaufen würde.

Aber es passiert. Es passiert vor allem Menschen, die es auf jeden Fall besser wissen müssten. 2012 vertrat eine im „New England Journal of Medicine” publizierte Studie die These, dass der Genuss von Schokolade eine bevölkerungsweite Verbesserung der kognitiven Fähigkeiten bewirken kann. Die Begründung sollte eine Statistik liefern, die die Anzahl der Nobelpreisträger aus einem Land mit dem Schokoladenkonsum im selben Land in Verbindung brachte.

Die Forscher sprachen sogar selbst die Problematik an: „The principal finding of this study is a surprisingly powerful correlation between chocolate intake per capita and the number of Nobel laureates in various countries. Of course, a correlation between X and Y does not prove causation but indicates that either X influences Y, Y influences X, or X and Y are influenced by a common underlying mechanism. However, since chocolate consumption has been documented to improve cognitive function, it seems most likely that in a dose-dependent way, chocolate intake provides the abundant fertile ground needed for the sprouting of Nobel laureates.”

Diese Schlussfolgerung birgt einige Probleme, nicht nur die Sache mit der Korrelation und Kausalität. Die Autoren haben auch einen sogenannten Ökologischen Fehlschluss vorgelegt: Nur weil man zwei Datensätze hat, bei denen einer die Nobelpreisträger und ein anderer den Schokoladenkonsum abbildet, kann man von diesen kollektiven Datensätzen noch lange keine Rückschlüsse auf einzelne Individuen ziehen. Trotz der mathematischen Ähnlichkeit beider Werte ist es beispielsweise durchaus möglich, dass nie ein Nobelpreisträger Schokolade gegessen hat – wir können den Schokoladenkonsum von Nobelpreisträgern aus diesen Datensätzen gar nicht ablesen. Das Gewinnen eines Nobelpreises durch Einzelpersonen ist außerdem kein geeignetes Anzeichen für die kognitiven Fähigkeiten der gesamten Bevölkerung eines Landes. Die biologischen Metaphern („fertile ground“, „sprouting“) sollten hier schon die Alarmglocken schrillen lassen.

Warum erliegen sogar Menschen, die sich wissenschaftlich mit Daten beschäftigen (und sogar selbst die Problematik ansprechen!), immer wieder der Versuchung, einen kausalen Zusammenhang zu vermuten, wo keiner ist?

Die wissenschaftliche Suche nach dem kausalen Zusammenhang

Das liegt erst einmal daran, dass das Ableiten von Kausalitäten aus beobachteten Tatsachen eine der schwierigsten wissenschaftlichen Aufgaben ist und von vielen als das Grundproblem von Wissenschaft überhaupt gesehen wird. Der finnische Informatiker Patrik Hoyer versuchte sich mit seinen additive noise models trotzdem daran. Seine Ergebnisse wurden auch von Joris Mooij, Juniorprofessor für maschinelles Lernen an der Universität von Amsterdam, aufgegriffen und stellen einen Versuch dar, eine allgemeingültige und vor allem saubere Methode zur Daten-Auswertung zu entwickeln.

Die Idee ist vergleichsweise simpel: Sollte tatsächlich ein Ereignis ein anderes beeinflussen, findet man das, was Hoyer „additive noise“ nennt, also zusätzliches Rauschen oder die Nebeneffekte dieses Ereignisses, im beeinflussten Ereignis wieder.

Fahre ich also jeden Tag mit dem Auto zur Arbeit, schlagen sich zufällige Nebenereignisse meiner Fahrt (eine rote Ampel, Blitzeis oder Stau) in der Dauer meiner Fahrt nieder. Aus dem Beobachten dieser „additive noises“ kann man nun per Gegenprobe schließen, dass der Verkehr meine Fahrzeit beeinflusst und nicht etwa meine Fahrzeit den gesamten Verkehr.

Diese Vorgehensweise ist leider nur bei ähnlich simplen Zusammenhängen anwendbar. Sie ist auch auch nicht zu 100 Prozent verlässlich. Aber sie zeigt immerhin eines: Die Schwierigkeiten beim Ermitteln von kausalen Zusammenhängen sind enorm und sollten am besten Profis überlassen werden.

Big Data und die steigende Verfügbarkeit von Daten

Und genau hier kommt das zweite große Problem ins Spiel. Daten und statistische Erhebungen sind so einfach zu bekommen wie noch nie. Unter dem Begriff Big Data möchte jeder an diesen Informationen teilhaben und sie auswerten. Und zwar möglichst viele Daten auf einmal, und möglichst schnell, am besten automatisiert.

Gerade Entscheidungen, die Produkte und Dienstleistungen betreffen, stehen verstärkt unter Datendruck, und gerade hier wird Korrelation und Kausalität verwechselt. Oder ganz weit auseinander gehalten. Der zum Thema Big Data sehr vielsagende Satz von Chris Anderson, „Petabytes allow us to say: ‚Correlation is enough‘“ beschreibt eine neue Einstellung zu Statistiken: Wenn die Menge der Daten ausreichend groß ist, reicht auch schon eine Korrelation als Grundlage für Entscheidungen.

Andersons Aussage ist sicher bewusst provokativ formuliert. Dennoch stimmt es, dass in einigen Fällen eine beobachtete Korrelation von Ereignissen als Entscheidungsgrundlage ausreichen kann. Ob und wann allerdings auf der Basis von Korrelationen eine Schlussfolgerung gezogen werden kann, hängt allerdings, wie eigentlich alles im Bereich Data-Analyse, davon ab, was man eigentlich wissen möchte und ob man überhaupt die richtigen Informationen hat.

Es kommt häufig genug vor, dass wir uns blenden lassen von einer überwältigenden Menge an Daten und Statistiken, ohne zu hinterfragen, ob wir nicht doch die falschen Daten zu einem bestimmten Thema ausgewählt haben. Der Ökonom David Reily greift beispielsweise lieber zu kontrollierten Experimenten, statt sich auf die Auswertung von Daten zu verlassen. So in einer Arbeit zur Effektivität von Werbung auf Yahoo. Er hatte die Möglichkeit, die Kunden eines Händlers mit Yahoo-Nutzern abzugleichen und aus allen passenden Testpersonen, die bei beiden registriert waren, eine Versuchsgruppe und eine Kontrollgruppe zu bilden. Der Versuchsgruppe wurde regelmäßig Werbung des Händlers gezeigt, der Kontrollgruppe nicht, auch wenn die Testpersonen die Bedingungen für die Anzeige erfüllten. Reily hat sich also ganz bewusst dazu entschieden, mit seinem Experiment nur die Zielgruppe des Unternehmens zu beobachten und nicht jede einzelne Suchanfrage auf Yahoo.

Ohne dieses Experiment, so Reily, wäre er zu den falschen Schlüssen gekommen. Die reine Analyse bestehender Daten hätte nicht berücksichtigt, dass sich Menschen, die eine bestimmte Werbung sehen, sehr stark von Menschen unterscheiden, die diese Werbung nie sehen werden, einfach indem sie bestimmte Begriffe nicht suchen. Wer auf der Suche nach einem neuen Auto ist, wird sich wenig für meine Anzeige zu aktueller Sportbekleidung interessieren. Aber wenn aus diesem Grund die Anzeige schnell weggeklickt wird, kommt man schnell zu falschen Schlüssen, wenn man die Effektivität der eigenen Anzeige bewerten möchte. Diese Daten würden mir zwar viel über die Positionierung und die Verbreitung meiner Anzeige sagen, nicht aber darüber, wie effektiv sie formuliert ist und wie viele Menschen aus meiner tatsächlichen Zielgruppe durch genau diese Anzeige zum Kauf angeregt werden.

Auch der Versuch, bei der Auswertung von Daten durch kleinere Stichproben und andere Methoden wieder mehr auf einzelne Menschen zu achten, um seine Zielgruppe zu verstehen, bekommt wieder mehr Beachtung. In der Welt von Big Data versuchen sich einige durch ihren ganz eigenen Ansatz abzugrenzen: Small Data.

Selbst mit einer unbegrenzten Menge an Daten bleibt also die Auswertung dieser Daten schwierig und in Ihr menschliches Ermessen gestellt. Mit Blick auf eine konkrete Unternehmens-Situation ist immer zu klären: Stelle ich die richtigen Fragen? Wie wurden die Daten erhoben? Sind sie neutral? Sind sie aussagekräftig? Gesunder Menschenverstand und individuelle Urteilsfähigkeit und Erfahrung sind im Umgang mit Daten unerlässlich.

Ein erster Schritt, auch in der Datenflut die richtigen Entscheidungen zu treffen, kann für Sie mit Research von NIMIRUM beginnen. Wir wissen, wie man aus einer Vielzahl von Informationen und Meinungen die richtigen herausfiltert und unsere unabhängigen Experten geben, anders als Algorithmen, entsprechend Ihrer individuellen Fragen und Anforderungen Antworten und Handlungsoptionen. 

Autor: Björn Berger / Redaktion NIMIRUM 

Links

Themen

  • Geisteswissenschaften

Kategorien

  • expertennetzwerk
  • wissenstransfer
  • research
  • trendanalyse

Kontakt

Anja Mutschler

Pressekontakt GF GF, PR 0341 / 424 82 101

Zugehörige Meldungen