istock/MarinMtk
Wissenschaft | 12.11.2018 (editiert am 19.11.2018)

Was Forschungsstudien (nicht) belegen

Analysen von Forschungsinstituten werden häufig sowohl auf theoretischer als auch empirischer Basis kritisiert. Doch um was geht es dabei genau? Zur Wichtigkeit grundlegender Theorien und Logiken.

Wenn Forschungsinstitute aus Kiel oder München mal wieder mit irgendwelchen Studien irgendwas belegen wollen, werden oftmals auf „wissenschaftlicher Basis“ Nebelkerzen geworfen. Zuletzt hat sich das ifo-Institut mit einer Forschungsarbeit hervorgetan, die an keiner vernünftigen Universität der Welt für die Note „mangelhaft“ in einem Statistik-Grundkurs ausreichen würde.

In der „Studie“ Exportieren Länder mit Leistungsbilanzüberschüssen Arbeitslosigkeit? von Martin Braml, Gabriel Felbermayr und Lucia Wilbert wird mit ganz simplen Regressionsmodellen gearbeitet, die allerdings theoretisch und operativ komplett am Thema vorbeigehen (Heiner Flassbeck und Friederike Spiecker haben sich auf Makroskop dazu bereits geäußert). Dieser Artikel soll deshalb auf grundlegende Probleme und Implikationen solch häufig verwendeter Methoden eingehen und verständlich machen, was da überhaupt passiert. Selbst wenn statistische Begriffe anspruchsvoll und wissenschaftlich klingen mögen, so ist die dahinterstehende Arbeit im Prinzip keine Hexenkunst und recht leicht zu verstehen.

Korrelation und Kausalität

Zunächst einmal gibt es in der ifo-Studie einen Satz, bei dem die Autoren ausnahmsweise richtig liegen. Zu Beginn stellen sie klar, dass einfache Korrelationen, also wechselseitige Beziehungen, keine Kausalität bedeuten. Da in den Medien hin und wieder auf kausale Zusammenhänge aufmerksam gemacht werden, denen eigentlich nur eine simple Korrelation zugrunde liegt, ist dies eine richtige und wichtige Anmerkung.

Um dies an einem einfachen Beispiel zu illustrieren: in der unten dargestellten Grafik sehen wir einen Zusammenhang zwischen der Entwicklung der Einwohneranzahl Oldenburgs von 1930-1936 und der Anzahl der beobachteten Störche in der Gegend.

Wer im Biologieunterricht nicht aufgepasst hat, könnte dies als Beleg dafür nehmen, dass Störche die Kinder in die Welt tragen. Dem würde wohl jeder normale Mensch entgegensetzen, dass in einer wachsenden Stadt mehr Häuser und sonstige Infrastruktur gebaut werden, sodass Störche mehr Optionen zum Bau ihrer Nester haben und die beobachtete positive Korrelation deshalb nicht überraschend ist.

 

Noch besser wäre es gewesen, wenn die Autoren auch darauf verwiesen hätten, dass Kausalität ebenso wenig mit Regressionsanalysen oder sonstigen ökonometrischen Methoden bestimmt werden kann – ganz gleich welche statistischen Rechtfertigungen oder Tricksereien man verwenden mag (häufig werden sogenannte Instrumental Variables zu diesem Zweck benutzt). Zwar gibt es einige Möglichkeiten mithilfe bestimmter Forschungsdesigns kausale Zusammenhänge zumindest plausibler zu untersuchen, jedoch bleibt bei sozialwissenschaftlichen Untersuchungen immer das Problem bestehen, dass Laborexperimente letztendlich unmöglich sind.

Um kausale Beziehungen zu belegen müsste es dem Forscher gelingen, bei all seinen Untersuchungsobjekten (seien es Individuen, Gruppen, Länder oder sonstige Entitäten) sogenannte ceteris paribus Bedingungen herzustellen – das heißt, in allen Fällen müssten die sonstigen Bedingungen für alle Untersuchungsobjekte gleich sein, bis auf die unabhängige Variable, von der der Forscher glaubt, dass sie einen bestimmten Effekt haben wird. In sozialwissenschaftlichen Untersuchungen gibt es diese Bedingungen einfach nicht, so dass Kausalität nur theoretisch hergeleitet werden kann.

Eine saubere theoretische Fundierung ist somit die Grundlage, auf der ökonomische und politische Prozesse und Ereignisse untersucht werden müssen. Wie Friederike Spiecker in ihrem oben verlinkten Artikel dargelegt hat, scheitert die besagte ifo-Studie damit auf allen Ebenen, so dass man sich ihre Analysen eigentlich hätte sparen können.

Regressionsmodelle – Der Goldstandard in den Sozialwissenschaften

Nichtsdestotrotz lohnt es sich an dieser Stelle dem Leser ein grundlegenderes Verständnis der in der ifo-Studie verwendeten Methodik zu geben – zumal Regressionsmodelle in den Sozialwissenschaften allgegenwärtig sind.

Was genau sind nun Regressionsmodelle? Ganz simpel gesprochen handelt es sich dabei um Modelle, die den Einfluss einer unabhängigen Variable auf eine abhängige Variable untersuchen. Unabhängige Variablen sind dabei die Variablen, von denen der Forscher meint, dass sie einen Effekt auf die Zielvariable haben müssen, wobei letztere entsprechend als abhängige Variable bezeichnet wird. Nehmen wir zum Beispiel an, ein Wissenschaftler meint, dass der Schuldenstand eines Landes negative Effekte auf das Wachstum haben wird. In dem Fall ist der Schuldenstand die unabhängige, das Wachstum hingegen die abhängige Variable. In Fällen wo nur zwei Variablen in einer Regression vorkommen, sprechen wir von einer bivariaten Regression.

Der Grundgedanke der meisten Standardregressionen ist, dass eine lineare Beziehung zwischen diesen Variablen vorliegt.[1] Die Regressionslinie minimiert dann den Abstand zu allen individuellen Beobachtungen der Stichprobe („line of best fit“)[2], wobei die Stärke der Beziehung zwischen den beiden Variablen größer ist, je geringer die Abstände von der Linie zu den Residualen (den einzelnen Punkten im Graphen) sind. Die Residuale selbst wiederum weichen von den von der Regressionslinie vorhergesagten Werten ab, da es in der wirklichen Welt eine Vielzahl von Störgrößen bzw. -einflüssen gibt, so dass eine perfekte Beziehung zwischen zwei Variablen äußerst selten, ja fast unmöglich ist (interessanterweise finden wir allerdings auf lange Sicht einen solchen (so gut wie) perfekten Zusammenhang zwischen Lohnstückkosten und Preisentwicklung, was somit empirisch einen extremst überzeugenden Zusammenhang zwischen Löhnen und Preisen impliziert). Graphisch lässt sich eine bivariate Regression beispielsweise wie folgt aufzeigen:

Man sieht wie die rote Linie den geringsten Abstand zu den Beobachtungen in der Stichprobe „gefunden“ hat und in diesem Beispiel ein positiver Effekt von X auf Y besteht. Das heißt, wenn X steigt, steigen die Werte für Y. Regressionsgleichungen werden – grundsätzlich – folgendermaßen geschätzt:

\(y= β_0+ β_1*x_1+ ϵ\)

Y ist dabei der Wert, den die abhängige Variable annimmt, β0 gibt den Baseline-Wert an (also den Wert, den Y annimmt, wenn die unabhängige Variable gleich null ist), β1 ist die Steigung von x1 (anders ausgedrückt: der Wert, um den Y steigt, wenn X um eine Einheit erhöht wird) und ε ist der sog. error term, also die Größe in der Regressionsgleichung, die alles zusammenfasst, was das Modell nicht erklärt (= Abweichungen der beobachteten Werte von den vom Modell vorhergesagten Werten). In einer weniger mathematischen Ausdrucksweise könnte man somit auch schreiben:

Wert der abhängigen Variable
Baseline Wert von Y
der Wert, um den Y steigen wird, wenn X um eine Einheit erhöht wird
„sonstige Störeinflüsse“

Normalerweise funktionieren die Modelle so, dass der Forscher in dem Effekt einer bestimmten unabhängigen Variable (z. B. Schuldenstand) auf eine abhängige Variable (z. B. Wachstum) interessiert ist und diesen Einfluss isoliert betrachten möchte. Bei einer normalen bivariaten Regression kann es nämlich sein, dass, wie im Falle der Korrelation, irgendwelche anderen Variablen die Veränderung der Werte der abhängigen Variable beeinflussen. Der Wissenschaftler wird somit eine Reihe von Kontrollvariablen dem Modell hinzufügen. Indem beispielsweise Variablen wie Investitionen, Lohnentwicklung, „technologischer Fortschritt“, Mitgliedschaft in einer Währungsunion (als sog. Dummy Variable), Demographie etc. addiert werden, kann der Effekt der Variable „Schuldenstand“ unabhängig vom Einfluss der Kontrollvariablen auf das Wirtschaftswachstum identifiziert werden. Spuckt das Modell zum Beispiel einen Koeffizienten (= Wert von) 1.5 für unsere Variable „Schuldenstand“ heraus, so heißt dies, dass sich das Wirtschaftswachstum um 1.5 Einheiten (z. B. 1.5 %) erhöht, wenn die die Schulden um eine Einheit steigen (z. B. 1 % des BIP) und alles andere gleichbleibt. Falls der Koeffizient -1.5 ist, so kann es so interpretiert werden, dass ein Anstieg von 1 Einheit bei den Schulden das Wachstum um 1.5 Einheiten zurückgehen wird. Grafisch lässt es sich dann nicht mehr so leicht ausdrücken wie in einer bivariaten Regression (wie im Beispiel oben), das Prinzip ist jedoch dasselbe.

Operationalisierung – Was wird gemessen?

Selbstverständlich ist dies nur eine extrem verkürzte Fassung dessen, was mit Regressionsmodellen alles gemacht werden kann, wie sie erweitert werden können, oder welche zusätzlichen Faktoren berücksichtigt werden müssen. Nichtsdestotrotz ist dieses Wissen aber ausreichend, um den Grundgedanken dieser Modelle zu verstehen.

Wird man mit statistischen Analysen konfrontiert, so sind jedoch weitere (vielleicht einfacher zu verstehende) Kriterien bei der Beurteilung der Qualität entscheidend. Von überragender Bedeutung ist dabei die Frage, wie die Variablen operationalisiert wurden (d.h. wie der Forscher seine Variablen definiert hat). Wer zum Beispiel „Stimmung in der Wirtschaft“ als unabhängige Variable benutzen möchte und die Anzahl der Sonnentage in dem jeweiligen Monat als seine Variable festlegt (anstatt bspw. zum ifo-Index zu greifen), der macht irgendetwas falsch. In den meisten Fällen ist die Problematik natürlich schwammiger. So wird die Totale Faktorproduktivität beispielsweise häufig als Variable für technischen Fortschritt benutzt (auch ich habe es in einigen Modellen so als Kontrollvariable verwendet), obwohl damit einige Probleme verbunden sind. Ebenso kann es bei Analysen, die „Arbeitslosigkeit“ in irgendeiner Form als unabhängige Variable benutzen, zu unterschiedlichen Ergebnissen kommen, je nachdem welche Kennziffer für die Arbeitslosigkeit definiert wird.

Wie sehr die Operationalisierung der Variablen das Endergebnis beeinflussen kann, kann der Leser hier ausprobieren (der damit verbundene Artikel selbst ist ebenso hervorragend). Wenn man damit nur einige Minuten herumspielt, merkt man, wie leicht es ist die „richtigen und signifikanten (!) Ergebnisse“ zu „produzieren“.

Ein weiterer Aspekt ist die Frage, wie die operationalisierten Variablen zur Fragestellung passen. Als kompletter Totalausfall in dieser Hinsicht (bzw. als ideales Beispiel wie man nicht arbeiten sollte) dient wiederum die ifo-Studie. Die Autoren stellen sich die Frage, ob Länder mit Leistungsbilanzüberschüssen Arbeitslosigkeit exportieren. Schon alleine diese Fragestellung schließt eine Regression als passende Methode aus. Zunächst finden wir hier ganz fundamental keine vernünftig messbare Einheit für die Zielvariable unseres Modells. Als predictor Variable „Leistungsbilanzüberschüsse“ zu verwenden ist sicherlich kein Problem, doch was bitte soll die Zielvariable sein? „Export von Arbeitslosigkeit“? Wie soll das bitte definiert werden? Wie kann man das überhaupt als Zielgröße operationalisieren? Antwort: Es geht nicht. Zudem müssten für die Beantwortung der Frage zwangsläufig mehrere endogene und in gegenseitiger Wechselwirkung stehende Variablen als abhängige und unabhängige Variablen fungieren (i.e. steigende Verschuldung bei Leistungsbilanzdefiziten und die Auswirkungen auf den Arbeitsmarkt). Dass die Autoren dieses Problem nicht erkennen ist umso erstaunlicher, da sie direkt zu Beginn ihrer Arbeit direkt darauf verweisen.

Dass man mit solch haarsträubenden methodischen Fehlern nur den Vogel abschießen kann, sollte mittlerweile klar sein. Nichtsdestotrotz haben die Autoren versucht, ihre Frage damit zu untersuchen, indem die Differenz der Veränderung der durchschnittlichen Arbeitslosigkeit von 2010 bis 2013 und 2014 bis 2017 als Zielvariable fungiert und die Veränderung der Leistungsbilanz für dieselben Zeiträume als unabhängige Variable dient. Von einem „Export von Arbeitslosigkeit“ ist somit – aus o.g. Gründen – in ihrer eigentlichen Analyse nichts mehr zu finden. Es wird vielmehr die Frage behandelt, inwiefern eine Verbesserung der Leistungsbilanz die Arbeitslosigkeit reduziert – etwas komplett anderes als das, was die Autoren vorgeben zu behandeln. Doch selbst dabei ist der Vierjahresdurchschnitt zweifellos extrem arbiträr, zumal das Argument der Kritiker der deutschen Leistungsbilanzüberschüsse eine Analyse seit 1999 erfordern würde und alle sonstigen Einflüsse auf die Arbeitslosigkeit in die Analyse nicht mit einbezogen werden. In ihrem Modell wird somit z. B. unterstellt, dass die Austeritätsprogramme in Griechenland, die das Leistungsbilanzdefizit durch einen Einbruch der Importe massiv reduziert haben, zu sinkender Arbeitslosigkeit hätten führen müssen. Jeder, bei dem noch ein wenig Resthirn vorhanden ist, sieht aber sofort, was für eine absurde Annahme das eigentlich ist (und somit, wie unfassbar sinnfrei der Ansatz der Autoren ist).

Wenn man sich kurz hinsetzt und diesen Blödsinn nachbereitet, so stellt sich auch die Frage, weshalb die Autoren nicht die möglichen Effekte der Währungsunion miteinbezogen haben. Die beiden untenstehenden Grafen zeigen auf, dass es unter Berücksichtigung der Währungsunion negative Effekte gibt, auch wenn diese nicht (ganz) signifikant sind. Dass die Grafiken sich von denen des ifo-Instituts unterscheiden liegt daran, dass man eigentlich in der ersten Stunde zu Regressionsmodellen an der Universität lernt, dass die unabhängige Variable auf der X-Achse und die abhängige Variable auf der Y-Achse dargestellt werden muss (zumal es in der Regressionsgleichung – auch bei unseren geschätzten ifo-Kollegen – so formuliert ist). Doch da sich die Autoren in der Studie anscheinend alle Mühe geben wirklich alles falsch zu machen, was man falsch machen kann, passt dieser kleine formale Fehler gut ins Bild.

Ich habe für die Regressionen unten die Länder rausgenommen, die während der Zeit der Untersuchung dem Euro beitraten (also Estland, Litauen und Lettland)[3] und die Mitglieder der Währungsunion farblich gekennzeichnet (rot). Da mir sämtliche Tests zeigten, dass Griechenland ein krasser Ausreißer ist, habe ich zudem eine gestrichelte rote Regressionslinie mit beigefügt, die Griechenland nicht miteinbezieht. Im Ergebnis für die Eurozone ohne Griechenland erhalten wir einen negativen Koeffizienten von -0.34 (p-Wert 0.14) für das EU-28 Sample und -0.55 (p-Wert von 0.06, also fast signifikant auf 0.05 Level und signifikant auf 0.1 Level) für das OECD Sample. Dies könnte nun so interpretiert werden, dass wenn sich die Leistungsbilanz um 1 % des BIP verbessert, die Veränderung der Arbeitslosigkeit in den Ländern der Eurozone um 0.34 % bzw. 0.55 % besser ausfällt (also die Arbeitslosigkeit stärker zurück geht). Da die gesamte Analyse von der Herangehensweise jedoch kompletter Unfug ist, sollte auch diesen Zahlen hier wenig Beachtung geschenkt werden. Es geht vielmehr darum zu zeigen, dass man selbst mit den Daten der ifo-Instituts und derselben Methode leicht andere Ergebnisse hätte präsentieren können. Sofern man als Forscher jedoch ein Minimum an Anspruch besitzt, würde man in der Auseinandersetzung mit der eigentlichen Forschungsfrage jedoch völlig anders vorgehen.

Statistische Signifikanz

Der letzte Aspekt, auf den ich im Rahmen der besagten ifo-Studie eingehen möchte, ist der der statistischen Signifikanz. Nachdem die Autoren eindrucksvoll widerlegt haben, dass Länder durch eine Verbesserung ihrer Leistungsbilanz ihre Arbeitslosigkeit nicht signifikant reduzieren konnten – und dieses „Ergebnis“ als Widerlegung der These umdeuten, dass Länder mit Leistungsbilanzüberschüssen keine Arbeitslosigkeit exportieren – stellt sich die Frage nach dem, was Signifikanz eigentlich bedeutet. Streng genommen gibt der sogenannte p-Wert (Signifikanzwert) an, wie wahrscheinlich es ist, unter Annahme der H0 Hypothese, denselben oder einen extremeren Wert aus einer Stichprobe zu erhalten. Je kleiner der p-Wert, desto mehr spricht gegen die Annahme der H0 Hypothese, also dass es z. B. keinen Unterschied zwischen zwei Gruppen gibt bzw. dass eine unabhängige Variable in einem Experiment keinen Einfluss auf die abhängige Variable hatte (je nach Forschungsfrage). Für gewöhnlich wird ein p-Wert von 0.05 als statistisch signifikant gesehen.

Wenn nun in der Studie gesagt wird, dass die Veränderung der Leistungsbilanz keinen signifikanten Einfluss auf die Veränderung der Arbeitslosigkeit hat, beziehen sich die Autoren auf genau diesen p-Wert. Was allerdings dem normalen Leser entgehen könnte, ist, dass es für so geringe Stichprobengrößen extrem schwierig ist, überhaupt ein signifikantes Ergebnis zu erhalten (es sei denn, man hat eine sehr geringe Standardabweichung). Umgekehrt wiederum sollte man jedoch nicht jedem signifikanten Ergebnis blind vertrauen, da es vor allem bei sehr großen Datenmengen meistens der Fall ist, dass die vorliegenden Ergebnisse auch statistisch signifikant sein werden. Der p-Wert ist als Orientierungsgröße sicherlich nützlich, doch darauf aufbauend z. B. buchhalterisch klare Zusammenhänge zu verwerfen oder ein gegebenes Ergebnis als „die ultimative Wahrheit“ anzunehmen, ist nicht ratsam.

Fazit

Obwohl quantitativ arbeitende Wissenschaftler häufig den Anschein erwecken (wollen?), ihre Arbeit sei rigoros und objektiv, so weiß jeder, der an solchen Studien mal gearbeitet hat, dass die Entscheidungen, die im Verlauf quantitativer Arbeiten getroffen werden müssen, höchst qualitativer und subjektiver Natur sind. Es gibt im sozialwissenschaftlichen Bereich einfach keine perfekte Objektivität, was natürlich nicht heißt, dass man so offensichtlich manipulativ arbeiten kann, wie es das ifo-Institut in der o.g. Studie tat (wie man mit einem Mindestmaß an Anstand und Integrität als Wissenschaftler eine solche Studie überhaupt veröffentlichen kann, bleibt mir ein Rätsel). Von fundamentaler Bedeutung in jeder Arbeit ist von daher die theoretische Grundlage, auf der alles basiert. Wenn diese Grundlage eklatante Fehler oder Widersprüche aufweist, kann man sich den Rest der Arbeit sparen und das Papier direkt in die Mülltonne wandern lassen – ganz gleich wie viele Formeln darin enthalten sein mögen, die den theoretischen Unsinn irgendwie belegen sollen.


[1] Non-lineare Beziehungen können in Regressionsmodellen ebenfalls modelliert werden. Meistens werden dazu die unabhängigen Variablen durch eine Potenzierung oder sog. log-values transformiert. Für das grundsätzliche Verständnis ist dies jedoch im Moment nicht relevant.
[2] Die Methode dahinter wird oft mit dem Kürzel OLS umschrieben, was für “ordinary least squares” steht. Gemeint ist, dass dabei die potenzierte Summe der Differenzen der vom Modell vorhergesagten und der tatsächlich beobachteten Werte minimiert wird.
[3] Dies wäre ein klassischer Fall für eine Kritik, denn man könnte auch argumentieren, dass durch die feste Bindung zum Euro, die all diese Länder vor dem Beitritt zur Eurozone hatten, Wechselkursschwankungen keine Rolle spielten. Da ich aber eine klare Trennung von Eurozone und Ländern in Währung schaffen wollte – da letztere nicht durch unsinnige Maßnahmen wie den Fiskalpakt eingeschränkt waren und somit theoretisch die Möglichkeit haben, expansive Fiskalpolitik zu betreiben – habe ich mich dazu entschlossen diese Länder ganz raus zu nehmen. Dies ermöglicht es mir, auch Dänemark und Bulgarien, die ebenfalls einen Peg zum Euro haben, als Länder mit eigener Währung in meiner Analyse zu behandeln, ohne inkonsistent zu sein.

Anmelden