Die systematische Untersuchung von achtzehn Wahlkampfveranstaltungen des damaligen US-Präsidenten Donald Trump zwischen dem 20. Juni und dem 30. September 2020 erlaubt einen selten präzisen Einblick in die kausalen Zusammenhänge zwischen großen Menschenansammlungen und der anschließenden Ausbreitung von COVID-19. Diese Veranstaltungen zeichneten sich durch mehrere Eigenschaften aus, die sie zu besonders geeigneten Untersuchungsobjekten machten: Sie fanden an klar bestimmbaren Tagen statt, waren zeitlich begrenzt, betrafen geografisch abgrenzbare Regionen und waren stark besucht – teils mit zehntausenden Teilnehmern. Zudem fand die überwiegende Mehrheit dieser Veranstaltungen unter Bedingungen statt, die epidemiologisch als besonders riskant einzuschätzen sind: ohne Maskenpflicht, ohne soziale Distanzierung, und häufig unter einer bewussten Verharmlosung des Infektionsrisikos durch die Veranstalter selbst.

Die Untersuchung basiert auf einem methodisch anspruchsvollen Design: Für jede Veranstaltung wurde ein eigenes Regressionsmodell entwickelt, das auf dem Vergleich mit dem Verlauf in strukturell und demografisch ähnlichen Landkreisen basiert, in denen keine Rally stattfand. Dabei wurde der zeitliche Verlauf der bestätigten COVID-19-Fälle vor dem Ereignis ebenso berücksichtigt wie andere Kontextvariablen – beispielsweise lokale Restriktionen oder bereits bestehende Fallzahlen. So konnte für jeden betroffenen Landkreis prognostiziert werden, wie sich die Fallzahlen ohne die Veranstaltung entwickelt hätten. Der Unterschied zur tatsächlichen Entwicklung lieferte dann eine Schätzung des kausalen Effekts.

Dieser methodische Ansatz unterscheidet sich in einem zentralen Punkt von klassischen epidemiologischen Prognosen: Während letztere auf historischen Daten basieren und in die Zukunft extrapolieren, nutzt diese Analyse tatsächliche Entwicklungen in vergleichbaren Regionen nach dem Ereignis, um Rückschlüsse auf den Effekt im untersuchten Landkreis zu ziehen. Es handelt sich also nicht um eine Vorhersage in unbekanntes Terrain, sondern um eine kontrafaktische Rekonstruktion mit real beobachteten Vergleichswerten.

Die Ergebnisse sind eindeutig: In der überwiegenden Mehrheit der untersuchten Varianten des Matching-Verfahrens zeigt sich ein Anstieg von über 250 zusätzlichen bestätigten COVID-19-Fällen pro 100.000 Einwohner infolge der Veranstaltungen. Hochgerechnet auf die gesamte Stichprobe der achtzehn Veranstaltungen bedeutet das über 30.000 zusätzliche bestätigte Infektionen. Unter Berücksichtigung der jeweiligen lokalen Sterblichkeitsraten lassen sich daraus über 700 Todesfälle ableiten – wobei zu betonen ist, dass diese Todesfälle nicht zwingend unter den Teilnehmern selbst auftraten, sondern im weiteren sozialen Umfeld durch Sekundärinfektionen entstanden sein können.

Zum Vergleich wurden sogenannte „Placebo-Events“ analysiert – hypothetische Veranstaltungen, die zehn Wochen vor dem tatsächlichen Ereignis angesetzt wurden. Diese ergaben keine signifikanten Effekte, was die Validität der eigentlichen Ergebnisse weiter unterstreicht. Die Tatsache, dass der beobachtete Anstieg an Infektionen ausschließlich nach den tatsächlichen Veranstaltungen und nicht zu einem früheren Zeitpunkt auftrat, spricht gegen methodische Artefakte und stützt die Hypothese eines kausalen Zusammenhangs.

Während frühere Studien, wie etwa jene von Dave et al. (2020), sich auf Einzelveranstaltungen wie die Tulsa-Rally konzentrierten und keine signifikanten Effekte feststellen konnten, hebt sich die hier dargestellte Analyse durch die aggregierte Betrachtung einer Vielzahl von Veranstaltungen ab. Gerade in einem epidemiologisch volatilen Umfeld mit hohen Standardabweichungen sind Mittelwertvergleiche über mehrere Ereignisse hinweg methodisch robuster und bieten belastbarere Ergebnisse. Ebenso unterscheidet sich diese Untersuchung von einfacheren Trendvergleichen durch ihre tiefergehende Modellierung der kontrafaktischen Entwicklung über bis zu zehn Wochen.

Diese Erkenntnisse sind von hoher Relevanz für die Bewertung von Massenveranstaltungen in gesundheitlichen Krisenzeiten. Es zeigt sich, dass politische Großereignisse inmitten einer Pandemie nicht nur ein individuelles Risiko für die Teilnehmer darstellen, sondern eine messbare, systematische Auswirkung auf die öffentliche Gesundheit in ganzen Regionen haben können. Dies gilt insbesondere, wenn dabei gesundheitspolitische Empfehlungen bewusst ignoriert oder untergraben werden.

Der Leser sollte sich darü

Wie beeinflussen politische Großveranstaltungen die Verbreitung von COVID-19?

Die Wirkung sogenannter Superspreader-Ereignisse entfaltet sich häufig nicht sofort, sondern kumuliert über Zeiträume hinweg – ein Umstand, der in der Bewertung epidemiologischer Risiken besonderer Aufmerksamkeit bedarf. Eine detaillierte Untersuchung von 18 Trump-Wahlkampfveranstaltungen, die zwischen dem 20. Juni und dem 22. September 2020 stattfanden, zeigt signifikante Zusammenhänge zwischen diesen Großereignissen und einem anschließenden Anstieg der COVID-19-Fallzahlen in den jeweiligen Regionen.

Die Auswahl dieses Analysezeitraums erfolgte bewusst: Zum einen ist ein vierwöchiges Beobachtungsfenster nach einer Veranstaltung notwendig, um die infektionsdynamischen Folgen einigermaßen zuverlässig abbilden zu können. Zum anderen deuten Anzeichen darauf hin, dass sich bei späteren Veranstaltungen die Einhaltung gesundheitlicher Schutzmaßnahmen – etwa das Tragen von Masken – verbessert haben könnte. Da jedoch keine belastbaren Daten zur tatsächlichen Einhaltung vorliegen, wurden spätere Events nicht berücksichtigt.

Die Fallzahlen stammen aus der Datenbank des Center for Systems Science and Engineering (CSSE) der Johns Hopkins University, welche täglich aggregierte Informationen zu bestätigten Fällen und Todesfällen liefert, gegliedert nach dem jeweiligen County. Zur Verringerung des Messrauschens wurden diese Daten auf Wochenbasis umgerechnet. Fälle mit rechnerisch negativen Inkrementen – etwa durch Korrekturen bei der Fallzählung – wurden als null behandelt.

Die Entfernung der analysierten Countys zu den Veranstaltungsorten wurde mit Hilfe von Geodaten berechnet. Um potenzielle Verzerrungen durch benachbarte Regionen zu vermeiden – etwa infolge unkontrollierter Mobilität oder diffuser Ansteckungsketten –, wurden alle Countys im Umkreis von 50 Kilometern um ein Veranstaltungs-County aus der Analyse ausgeschlossen. Explorative Analysen zeigten zudem keinen signifikanten Anstieg der Fallzahlen in angrenzenden Regionen, was die Entscheidung zusätzlich stützt.

Weitere verwendete Daten umfassen Testkapazitäten, politische Maßnahmen zur Pandemiebekämpfung und demografische sowie wahlbezogene Merkmale der Countys. Hierzu zählen u. a. Maskenpflichten, Ausgangsbeschränkungen, sozioökonomische Indikatoren und Wahlergebnisse von 2016.

Die größte methodische Herausforderung liegt in der Heterogenität der Pandemiedynamik: Weder lassen sich COVID-19-Fallverläufe zwischen Countys direkt vergleichen, noch bleiben sie über die Zeit stabil. Klassische ökonometrische Modelle mit festen Effekten für Zeit und Region versagen angesichts dieser strukturellen Komplexität weitgehend. Auch Erweiterungen dieser Modelle durch Interaktionen mit wenigen demografischen Variablen bringen kaum nennenswerte Verbesserungen.

Hinzu kommt die starke Variabilität der potenziellen Effekte solcher Veranstaltungen. Ob und wie sehr ein Rallye zur Virusverbreitung beiträgt, hängt von zahlreichen Faktoren ab – etwa ob sie in geschlossenen Räumen stattfand, wie hoch die Virenlast unter den Teilnehmern war, in welchem Ausmaß Masken getragen wurden, wie eng die Personen standen, wie viele Menschen teilnahmen und welches Verhalten sie nach der Veranstaltung an den Tag legten. Während Informationen über den Veranstaltungsort (drinnen oder draußen) zuverlässig verfügbar sind, fehlen belastbare Daten zu allen anderen Parametern – was die Analyse zusätzlich erschwert. Es ist davon auszugehen, dass Superspreading nur unter bestimmten Bedingungen auftritt, was eine rechtsschiefe Verteilung der Effekte nahelegt.

Zur Kompensation dieser Unsicherheiten wurde für jede Veranstaltung eine eigene Wirkungsschätzung vorgenommen. Dabei wurden mithilfe objektiver Kriterien sogenannte „ähnliche“ Countys identifiziert, um deren Verlauf mit dem des Veranstaltungs-Countys zu vergleichen. Auf Basis präpandemischer Infektionsniveaus, demografischer Strukturen und politischer Maßnahmen wurde ein erwartbarer Verlauf geschätzt – die Differenz zum tatsächlichen Verlauf ergibt die geschätzte Wirkung der Veranstaltung.

Um die Aussagekraft dieser Methode zu prüfen, wurden zusätzlich sogenannte „Placebo-Events“ eingeführt: Für jedes echte Event wurde ein künstliches Event zehn Wochen vor dem tatsächlichen Termin simuliert. Sollte sich auch dort ein Effekt zeigen, würde das auf bestehende Voreffekte und methodische Verzerrungen hindeuten. Diese Kontrolle ergab jedoch keine systematischen Scheineffekte, was die Validität der Methode stützt.

Besonders relevant ist die Erkenntnis, dass nicht alle Veranstaltungen gleich wirken: Indoor-Veranstaltungen weisen im Mittel eine deutlich stärkere Korrelation mit einem Anstieg der Infektionszahlen auf als Outdoor-Rallyes. Auch die Bevölkerungsdichte, der sozioökonomische Status der Region sowie bestehende politische Maßnahmen beeinflussen die Effekte maßgeblich.

Darüber hinaus sollte berücksichtigt werden, dass Rallyes nicht in einem epidemiologischen Vakuum stattfinden. Vielmehr interagieren sie mit bestehenden Trends, sozialen Dynamiken und politischen Überzeugungen, die wiederum Einfluss auf das individuelle Verhalten der Bevölkerung nehmen. So ist denkbar, dass bestimmte Gruppen durch die Signalwirkung einer solchen Veranstaltung ihr Schutzverhalten aktiv oder passiv anpassen – sei es durch bewusste Missachtung oder durch erhöhte Vorsicht.

Besonders brisant ist die politische Dimension: Großveranstaltungen, die ein öffentliches Zeichen gegen pandemiepolitische Maßnahmen setzen, erzeugen nicht nur kurzfristige Infektionseffekte, sondern beeinflussen mittelbar auch das Vertrauen in wissenschaftliche Autoritäten und staatliche Institutionen. Dies wiederum kann langfristige Folgen für die Effektivität von Public-Health-Maßnahmen haben – ein Aspekt, der in der bisherigen Analyse nicht explizit messbar war, aber von erheblicher gesellschaftlicher Relevanz ist.

Wie kann man kausale Effekte von COVID-19-Ereignissen mit Hilfe von Matching-Methoden und Regressionsmodellen zuverlässig identifizieren?

Zur Schätzung kausaler Effekte in nicht-randomisierten Settings erweist sich die Verwendung von Vergleichsgruppen, die den Ereignisregionen in zentralen Merkmalen möglichst ähnlich sind, als zentral. Für jedes Ereignis (i, t) wird eine Vergleichsmenge Sit gebildet, die aus den M Landkreisen mit den geringsten Abweichungen im gewählten Ähnlichkeitsindex besteht – dabei werden die Ereignislandkreise selbst ausgeschlossen. Die Anzahl M wird typischerweise auf 100 oder 200 gesetzt, was etwa 3,2 % bzw. 6,4 % aller US-Landkreise entspricht.

Die wichtigste Dimension zur Bestimmung der Ähnlichkeit ist der Verlauf der COVID-19-Fallzahlen vor dem Ereignis. Der Ähnlichkeitsindex basiert dabei auf der gewichteten Summe quadratischer Abweichungen der Fallzahlen über L Wochen. Für ρ = 1 entspricht dies der euklidischen Distanz zwischen den Lags (yi,t−1, ..., yi,t−L) und (yj,t−1, ..., yj,t−L). Für ρ < 1 wird jüngeren Beobachtungen stärkeres Gewicht beigemessen. Robuste Ergebnisse ergeben sich für ρ ∈ {0.25, 0.5, 0.75, 0.9, 1} und L ∈ {5, 10}.

Darüber hinaus wird untersucht, inwiefern weitere Variablen zur Bestimmung der Vergleichsgruppen beitragen können. Demographische Charakteristika wie der Anteil der Bevölkerung ohne Hochschulabschluss oder das Abstimmungsverhalten bei der Präsidentschaftswahl 2016 (Trump- oder Clinton-Wähleranteil) sowie Zeitreihenmerkmale wie vergangene Fallzahlen werden in den Matching-Vektor aufgenommen. Der kombinierte Ähnlichkeitsindex summiert gewichtete quadratische Abweichungen, wobei jede Variable entsprechend ihrer empirischen Streuung gewichtet wird, um unterschiedlichen Skalen gerecht zu werden. Ein solches Vorgehen stellt sicher, dass jede Standardabweichung in einer Matching-Variable gleich stark zum Gesamtabstand beiträgt.

Da auch bei optimalem Matching strukturelle Unterschiede zwischen den Ereignis- und Vergleichslandkreisen verbleiben, wird in einem weiteren Schritt eine Regressionsanpassung vorgenommen. Für jede (i, t)-Kombination wird ein OLS-Modell auf Basis der Vergleichsgruppe Sit geschätzt, wobei als Zielgröße die kumulierte Anzahl neuer Fälle im Zeitraum t bis t + wit dient. Die Vorhersagevariablen umfassen unter anderem vorherige COVID-19-Fälle, Todesfälle, politische Maßnahmen (Maskenpflicht, Ausgangssperren), sowie soziodemographische Merkmale wie Alter, Bildungsgrad, Einkommensverhältnisse und Urbanitätsgrad.

Wegen der hohen Dimensionalität des Prädiktorenraums bei vergleichsweise kleiner Fallzahl (100 oder 200 Beobachtungen) wird die LASSO-Regression eingesetzt, um Überanpassung zu vermeiden. Dabei wird der Regularisierungsparameter so gewählt, dass entweder 10 oder 20 relevante Prädiktoren selektiert werden. Die kleinere Prädiktorenmenge wird für kleinere Vergleichsgruppen (M=100), die größere für größere Vergleichsgruppen (M=200) verwendet.

Der vorhergesagte Wert der kumulierten Fallzahlen für den Ereignislandkreis i, bezeichnet als Ŷiit, ergibt sich aus der Regression, ebenso wie der zugehörige Standardfehler σfit. Letzterer wird gemäß der klassischen Formel berechnet, die die Unsicherheit sowohl des Residualterms als auch der Kovariatenstruktur berücksichtigt. Die Schätzung des durchschnittlichen Behandlungseffekts über alle Ereignisse erfolgt dann als gewichteter Mittelwert der Differenz zwischen beobachteten und vorhergesagten Fallzahlen. Das Gewicht für jede Beobachtung ist dabei umgekehrt proportional zur quadrierten Vorhersageunsicherheit, was genaueren Schätzungen mehr Einfluss verleiht.

Die Resultate zeigen deutliche Effekte. Bei Verwendung eines Matching-Ansatzes basierend allein auf dem euklidischen Abstand der Fallzahlen der vorangegangenen zehn Wochen beträgt der geschätzte durchschnittliche Behandlungseffekt 332 zusätzliche Fälle pro 100.000 Einwohner. Der entsprechende Konfidenzintervall auf dem 95%-Niveau schließt den Wert null eindeutig aus. Placeboeffekte hingegen sind statistisch insignifikant.

Wird die Matching-Methode um weitere demographische Dimensionen ergänzt – beispielsweise Bevölkerung, Bildungsstand und Trump-Wähleranteil –, so reduziert sich di

Wie stark beeinflussten politische Großveranstaltungen die Verbreitung von COVID-19 in den USA?

Die statistische Auswertung der Auswirkungen von politischen Großveranstaltungen, insbesondere den Trump-Wahlkampfveranstaltungen, liefert ein prägnantes Bild: In den Wochen nach diesen Events kam es zu einem signifikanten Anstieg bestätigter COVID-19-Fälle in betroffenen Landkreisen. Die Ergebnisse basieren auf einem sorgfältig konzipierten Matching-Algorithmus, bei dem jeder der 18 behandelten Landkreise mit 100 ähnlich strukturierten Kontrolllandkreisen verglichen wurde. Das Matching erfolgte wahlweise auf Basis eines ungewichteten euklidischen Abstands der letzten zehn Wochen in Bezug auf die Inzidenz oder auf Basis eines gewichteten Distanzmaßes, das zusätzlich demografische Merkmale einbezog.

Die durchschnittlichen Behandlungseffekte („Average Treatment Effects“) wiesen bei nahezu allen Modellvarianten eine statistisch signifikante Abweichung von Null auf. Placebo-Effekte – simulierte Veranstaltungen zehn Wochen vor dem eigentlichen Event – blieben durchweg insignifikant und negativ. Dies verstärkt die Aussagekraft der tatsächlichen Effekte.

Die Methode erlaubte nicht nur eine punktuelle Analyse, sondern auch eine Extrapolation der Ergebnisse auf die Bevölkerungsgröße. Durch Multiplikation des durchschnittlichen Effekts pro 100.000 Einwohner mit der jeweiligen Bevölkerungszahl konnten die gesamten zusätzlichen Fallzahlen pro Landkreis geschätzt werden. Ergänzt um die landkreisspezifische Todesrate nach dem Event ließ sich auch der Anstieg an Todesfällen approximieren. Über alle betrachteten Landkreise summieren sich die Effekte auf mehr als 30.000 zusätzliche bestätigte Fälle und etwa 700 zusätzliche Todesfälle.

Um alternative Erklärungsansätze, insbesondere den möglichen Anstieg der Testhäufigkeit als alleinige Ursache der Fallzahlerhöhung, zu überprüfen, wurde eine vertiefte Analyse zweier Landkreise durchgeführt: Winnebago und Marathon in Wisconsin. Diese Landkreise lieferten systematisch die größten Diskrepanzen zwischen prognostizierten und tatsächlichen Fallzahlen. Gleichzeitig liegt für Wisconsin eine verlässliche Datengrundlage für Testfrequenz und Positivitätsrate vor.

Die Analyse der Zeitreihen dieser Indikatoren zeigt, dass sowohl in Winnebago als auch in Marathon die Positivitätsraten unmittelbar nach dem jeweiligen Event deutlich anstiegen, ohne dass ein entsprechender Trend vorher erkennbar war. Der Anstieg der Positivitätsraten impliziert, dass der Zuwachs an bestätigten Fällen nicht primär auf verstärkte Testaktivität zurückzuführen ist, sondern auf eine tatsächliche Ausbreitung des Virus.

In einer weiteren Robustheitsanalyse wurden die Landkreise mit den extremsten Effekten – sowohl am oberen als auch am unteren Rand – aus der Berechnung ausgeschlossen. Auch dann blieb der durchschnittliche Behandlungseffekt signifikant. Dies untermauert die Robustheit der zentralen Schlussfolgerung: Wahlkampfveranstaltungen dieser Größenordnung haben das Infektionsgeschehen in betroffenen Regionen messbar verschärft.

Der zusätzliche Erkenntniswert ergibt sich aus der Gegenüberstellung der realen Ereignisdaten mit kontrollierten Simulationen. Selbst bei Variation der Modellparameter – etwa der Anzahl an berücksichtigten Wochen, der Einbeziehung oder Auslassung demografischer Variablen, oder der Zahl der Vergleichslandkreise – blieben die Hauptergebnisse stabil. Dies legt nahe, dass das Signal des Effekts nicht durch Modellwahl oder spezifische Ausreißer getrieben wird, sondern eine strukturelle Folge der Ereignisse darstellt.

Wichtig ist in diesem Zusammenhang, dass die Todesraten nicht notwendigerweise zwischen Basisfällen und zusätzlichen Fällen konstant bleiben müssen. Sollte ein Teil des Anstiegs der Fallzahlen tatsächlich auf vermehrte Testaktivität zurückzuführen sein, wäre eine Senkung der Letalität zu erwarten. Doch die Differenz-in-Differenzen-Analyse zeigt, dass die durchschnittlichen Veränderungen der Todesraten in behandelten und Kontrolllandkreisen statistisch nicht voneinander abweichen. Somit gibt es keine empirische Grundlage für die Annahme, dass zusätzliche Fälle überwiegend mild oder asymptomatisch verlaufen wären.

Es ist entscheidend, dass politische Entscheidungen und Massenveranstaltungen auch unter epidemiologischen Gesichtspunkten bewertet werden. Die hier dokumentierten Effekte zeigen, wie stark soziale Mobilisierung zur Verbreitung eines Virus beitragen kann – selbst Wochen nach dem eigentlichen Ereignis. Die Verbindung zwischen physischer Präsenz, Mobilitätsverhalten und Gesundheitsrisiken wird durch diese Datenlage unmissverständlich deutlich.

In der öffentlichen Debatte muss berücksichtigt werden, dass statistische Unsicherheiten nicht gleichbedeutend mit Bedeutungslosigkeit sind. Auch Effekte, die im unteren Bereich der Konfidenzintervalle liegen, können gesellschaftlich relevante Konsequenzen nach sich ziehen, wenn sie systematisch auftreten und sich über eine Vielzahl von Regionen summieren.