- Der Debatte fehlt das wissenschaftliche Fundament
Eine umfassende Multiverse-Studie aus Stanford und Harvard zeigt: Ein Nutzen der staatlichen Corona-Maßnahmen ist empirisch nicht belegbar. Wer jetzt immer noch behauptet, der Nutzen sei durch Studien nachgewiesen, verbreitet Fehlinformation.
Bis heute ist die große Diskussion der letzten Jahre ohne abschließende Antwort: Was haben die staatlichen Corona-Maßnahmen nun wirklich gebracht? Zahlreiche wissenschaftliche Studien kamen zu unterschiedlichen Ergebnissen. Den Streit um des Kaisers Bart beendet nun eine neuartige umfassende Multiverse-Analyse von Eran Bendavid und Chirag J. Patel, die im Juni 2024 in Science Advances erschien. In dieser bislang umfangreichsten Studie wurden fast 100.000 Modelle berechnet, basierend auf Daten aus 181 Ländern. Das Ergebnis: Ein Nutzen der Maßnahmen ist empirisch schlicht nicht beweisbar. Wer jetzt immer noch behauptet, ein Nutzen der Maßnahmen sei durch Studien belegt, steht nicht auf dem Boden der Wissenschaft.
Weltweit begegneten Regierungen der Ausbreitung des SARS-CoV-2-Virus mit einschneidenden Verordnungen und Maßnahmen. Die Schnelligkeit und die globale Synchronisation dieser Reaktionen, ihr extremes Ausmaß und ihre vielfältigen Auswirkungen auf das Leben von Milliarden von Menschen sind historisch einmalig. Doch was haben die massiven und oft rigoros durchgesetzten Freiheitseinschränkungen durch Kontaktverbote, Ausgangssperren und Quarantänemaßnahmen gebracht?
Wozu die Isolierung Sterbender, die Verbote, alte und erkrankte Menschen zu besuchen, die Verschiebungen von Vorsorgeuntersuchungen und Therapien sowie die Schließung von Kindergärten und Schulen? Wofür wurde eine Maskenpflicht verhängt und juristisch durchgesetzt sowie Impfungen unter Umgehung der sonst üblichen längerfristigen Sicherheitsprüfung verfügbar gemacht, wofür berufliche Existenzen aufs Spiel gesetzt oder gar zerstört und Kritiker diffamiert?
Lehren für die Zukunft
Es häufen sich derzeit die Belege, dass die Mehrheit der Maßnahmen sich weder an den vorhandenen Pandemieplänen orientierte, noch an wissenschaftlich hochwertigen Studien, in denen ihre (erwünschten und unerwünschten) Auswirkungen empirisch geprüft worden wären. Oft bildeten Teilinformationen aus simulierten Modellen oder ein sogenannter „Expertenkonsens” die alleinige Grundlage der Entscheidungsfindung. So empfahl etwa die Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften in ihren Leitlinien die meisten Regierungsmaßnahmen, stufte die dafür vorhandene wissenschaftliche Evidenz aber entweder als „niedrig“ oder sogar als „sehr niedrig“ ein. Wie hat man sich die Angemessenheitsprüfung der Eingriffe in unsere Grundrechte unter diesen Umständen vorzustellen?
Um Sinnhaftigkeit und Nutzen der staatlichen Maßnahmen zu evaluieren und gegen mögliche Folgeschäden abzuwägen, nicht zuletzt, um Lehren für zukünftige Pandemien daraus zu ziehen, sind in diesem Rahmen eine profunde Aufarbeitung und eine breite wissenschaftliche Analyse und Bewertung wenigstens im Nachhinein unbedingt erforderlich. Anders als in den USA, wo eine solche Analyse unternommen wird, geht man in Deutschland davon aus, über die Eindeutigkeit der Ergebnisse auch ohne tiefergehende Studien Bescheid zu wissen. Der Kern des Problems bleibt dabei unberührt. So beantwortet Christian Drosten in einem aktuellen Interview beispielsweise die Frage, ob man inzwischen sagen könne, welche der Maßnahmen wirksam waren und welche nicht, prompt mit:
„Ja, das kann man im Groben ganz klar. Wir haben jetzt einen Prozess zum Auswertungsjahr 2021 abgeschlossen, also eigentlich die Zeit der Lockdowns, der nicht pharmazeutischen Intervention. Und da kann man beispielsweise sagen, dass die Kontaktmaßnahmen allgemein, also Ausgangssperre, Gruppengrößen, Beschränkungen und diese Dinge, einen starken und eindeutigen Effekt auf Krankheitslast, Infektionszahlen, Todeszahlen hatten. Und dann gibt es davon Varianten. Eine Variante ist zum Beispiel die Schulschließung. Auch die hat einen eindeutig nachweisbaren Effekt auf die gleichen Parameter. Das Gleiche gilt für Maßnahmen an Arbeitsplätzen, also sprich Home-Office-Regelung, Testen an Arbeitsstellen oder auch die Begrenzung von Belegzahlen in Büros."
Allerdings ist die Studienlage, anders als es Christian Drosten ex cathedra verkündet, mitnichten klar. Es gibt zwar inzwischen zahlreiche Studien zur Wirksamkeitsfrage der Maßnahmen. Doch obwohl jede Einzelstudie ein klares Ergebnis zu liefern scheint, zeigt sich in der Gesamtschau über alle Studien hinweg kein klares Muster: Beurteilen die einen Studien den Effekt der Maßnahmen als positiv, beurteilen ihn andere als negativ, und wieder anderen Studien erkennen keine Effekte.
Schwankungen in den Ergebnissen
Der tiefere Grund für ein derart uneindeutiges Gesamtbild ist in der empirischen Forschung wohlbekannt: Wenn bei einem Untersuchungsgegenstand ein komplexes Phänomen vorliegt, das von vielen Faktoren gleichzeitig beeinflusst wird, müssen an mehreren Stellen des Studiendesign- und Analyseprozesses methodische Vorentscheidungen getroffen werden, welche zwar alle gleichermaßen vernünftig begründbar sind, aber mit großen Schwankungen in den erhaltenen Ergebnissen einhergehen können.
Ein eindrückliches Beispiel dafür ist jene Studie, in welcher 73 Forschungsgruppen gebeten wurden, anhand exakt desselben Datensatzes die Frage empirisch zu beantworten, ob eine stärkere Einwanderung die Unterstützung für eine soziale Politik in der Öffentlichkeit verringert. Trotz identischer Ausgangsbedingungen reichten die Ergebnisse von großen negativen bis hin zu großen positiven Effekten, variierten also extrem. Weder das Fachwissen noch die Erwartungshaltungen der Forschungsgruppen noch die Bewertung der Qualität der verwendeten Analysen konnten dabei die Unterschiede in den Ergebnissen erklären.
Tritt ein solches uneinheitliches Befundmuster auf, gilt es wissenschaftlich ganz generell als unzulässig, die Ergebnisse einzelner Studien als empirischen Beleg heranzuziehen; denn bei der Verwendung anderer, qualitativ genauso hochwertiger Methoden würde man ja ein völlig anderes Ergebnis erhalten. In diesem Fall kann nur eine sogenannte Multiverse-Analyse weiterhelfen.
Der Clou dabei ist, dass alle methodisch denkbaren und sinnhaften Studiendesigns gleichberechtigt für die vorhandenen Daten durchgerechnet werden. Zeigen die so erhaltenen Ergebnisse eine einheitliche Tendenz, kann man einen Effekt als wissenschaftlich belegt ansehen. Ist das nicht der Fall, hat man es mit einer Fragestellung zu tun, die aufgrund ihrer Komplexität auf Basis der verwendeten Daten prinzipiell nicht empirisch beantwortet werden kann.
Die Ergebnisse streuen um einen Null-Effekt
Eine solche Multiverse-Analyse zur Fragestellung der Wirksamkeit der Corona-Maßnahmen wurde kürzlich von einem Team von Forschern der US-Universitäten Stanford und Harvard durchgeführt und in der Fachzeitschrift Science Advances publiziert. Anhand der epidemiologischen Daten aus 181 Ländern analysierten die Autoren insgesamt knapp 100.000 mögliche statistische Modelle zu den wichtigsten Indikatoren der Pandemie-Maßnahmen (wie beispielsweise Schulschließungen, Maskenpflicht, Zugang zu Tests und Impfstoffen) und der Pandemie-Verläufe (Anzahl berichteter COVID-19-Infektionen und -Todesfälle, Gesamtsterblichkeit).
Maßnahmen wurden dabei hinsichtlich der Wirksamkeit entweder als „geeignet“ (d.h. strengere Maßnahmen hängen mit weniger Krankheiten, weniger Todesfällen usw. zusammen) oder als „ungeeignet“ (strengere Maßnahmen hängen mit mehr Krankheiten, mehr Todesfällen usw. zusammen) klassifiziert. Die Autoren betonen dabei ausdrücklich, dass „hängen zusammen“ nicht unbedingt „verursachen“ bedeutet. Das erstaunliche Ergebnis lautet zusammengefasst: Es lässt sich kein signifikantes systematisches Muster erkennen. Die mit den verschiedenen Modellen erhaltenen Ergebnisse streuen breit um einen Null-Effekt; 42% aller Modelle finden die Maßnahmen „geeignet“, 58% finden sie „ungeeignet“.
Das bedeutet: Die Multiverse-Studie setzt weiteren Debatten, um den Nutzen der staatlichen Corona-Maßnahmen ein Ende, indem sie zeigt, dass die Debatte anhand der vorhandenen Daten empirisch nicht objektiv entschieden werden kann. Wer jetzt immer noch behauptet, ein Nutzen der Maßnahmen sei durch Studien belegt, verbreitet Fehlinformation. Denn er hat offenbar willkürlich eine bestimmte Auswahl von Studien herausgepickt, deren Methodik den gewünschten Effekt ergibt, und den Rest unterschlagen (sog. „Cherry-Picking“).
Nebenwirkungen der Maßnahmen
Angesichts der breit streuenden Ergebnisse der Multiverse-Studie ist hinsichtlich einer jeglichen Behauptung über einen wissenschaftlich angeblich bewiesenen Nutzen der staatlichen Maßnahmen vielmehr Demut geboten, wie die Autoren schreiben. Dies gilt umso mehr, da sich nicht nur objektiv kein Nutzen der verordneten Maßnahmen belegen lässt, sondern auch zahlreiche Hinweise auf Nebenwirkungen existieren, die durch die Maßnahmen hervorgerufen wurden.
Hierzu zählen etwa Firmenpleiten, vermehrte psychische Auffälligkeiten bei Kindern und Jugendlichen, gestiegener Alkoholkonsum oder häusliche Gewalt infolge von Lockdowns und Kontaktbeschränkungen. Da solche „unbeabsichtigten Effekte” in der Multiverse-Analyse nicht berücksichtigt wurden, bleibt die Frage vorerst offen, ob eine entsprechende weitere Multiverse-Analyse diesbezüglich möglicherweise ein richtungsweisendes Muster zeigen würde. Sollte dem so sein, hätten die staatlichen Maßnahmen nicht nur keinen empirisch nachweisbaren Nutzen erbracht, sondern einen empirisch nachweisbaren Schaden angerichtet.
Eine wissenschaftlich valide Aufarbeitung
Die nun vorliegenden Ergebnisse aus Stanford und Harvard machen deutlich, wie wichtig eine wissenschaftlich valide Aufarbeitung der staatlich verordneten Maßnahmen ist. Angesichts des Ergebnisses, dass sich bei einer solchen Aufarbeitung kein Nutzen der Maßnahmen nachweisen lässt, stellt sich umso mehr die Frage, wie es überhaupt dazu kommen konnte, dass empirisch nicht validierte und niemals vorher empfohlene Maßnahmen mit einem zum Zeitpunkt ihrer Inkraftsetzung empirisch bereits gut belegtem Schadenspotential staatlich verordnet wurden? Und wie es geschehen konnte, dass man dennoch über Jahre hinweg versucht hat, der Öffentlichkeit mit vernünftig klingenden, aber wissenschaftlich fragwürdigen Methoden eine angeblich „wissenschaftlich“ belegte Wirkung der Maßnahmen zu suggerieren? Diese Debatte gilt es nun in aller Tiefe zu führen.
Prof. Dr. B. Kotchoubey, Prof. Dr. Klaus Kroy, Prof. Dr. Christof Kuhbandner, Prof. Dr. Andreas Schnepf, Roland Hofwiler, Dr. Jens Schwachtje, Dr. habil. Harald Schwaetzer, RA René Kieselmann, Prof. Dr. Ole Döring, PD Dr. Monika Melters, Prof. Dr. Klaus Morawetz, Prof. Dr. med. Henrik Ullrich