In der zunehmenden Informationsdichte politischer Diskurse sind soziale Medien nicht bloß Plattformen für Meinungsaustausch, sondern strukturierte Datenquellen, die analytisch auswertbar sind. Die vorliegenden Daten geben ein fragmentiertes, aber strukturiertes Bild politischer Online-Kommunikation im Verlauf mehrerer Monate, verdichtet in der Form von Twitter-Aktivitäten zu spezifischen Themen wie Benghazi, innerstaatliche Politik, Bernie Sanders, Kriminalität, Terrorismus, Trump, Steuererklärungen, Einwanderung oder parteipolitischen Konventionen.

Die Relevanz eines Themas lässt sich dabei anhand der sogenannten „Proportion of Information“ messen – ein Metrikwert zwischen 0.1 und 0.8, der angibt, wie stark ein Thema zu einem bestimmten Zeitpunkt auf Twitter präsent war. Diese Proportionen sind entlang eines Kalenders dargestellt – mit regelmäßigen Peaks zu politischen Schlüsselereignissen. Diese methodische Erfassung ermöglicht die Identifikation von Mustern, z.B. der Häufung negativer Bemerkungen über Trump oder Clinton nach medial wirksamen Skandalen oder der plötzlichen Relevanz von Terrorismuspolitik im Umfeld internationaler Anschläge.

Was sich in der Analyse solcher Zeitreihen besonders zeigt, ist die Synchronisation von Nachrichtenereignissen mit der digitalen Reaktion: Je unmittelbarer ein Thema in den klassischen Medien präsent ist, desto stärker schlägt es sich als Cluster in den sozialen Medien nieder. Das heißt, soziale Medien wirken nicht isoliert – sie sind weder spontane Ausdrucksräume individueller Emotionen noch autarke Meinungsräume – sie oszillieren entlang der professionellen Nachrichtenzyklen. Dabei werden Themen nicht nur aufgegriffen, sondern auch in spezifischen Frames reproduziert: etwa als Angriff, Verteidigung, Unterstützung oder Skandalisierung.

Die fehlerhafte Typographie und Redundanz im Datentext lassen sich als bewusst übernommene Strukturmerkmale deuten. Denn sie sind Teil der rohen Datenrealität, wie sie in maschinell erfassten Social-Media-Analysen existiert. Automatisch generierte Repräsentationen von Tweets enthalten häufig Replikationen, Tippfehler, inkonsistente Formatierungen – was jedoch gerade den authentischen Charakter digitaler Kommunikation abbildet. In der Wissenschaft der digitalen Textanalyse sind solche Elemente keine Störungen, sondern Indikatoren der Datenquelle selbst.

Aus den Daten geht ebenso hervor, dass bestimmte Themen – wie "Random Tweets über Trump" oder "Positive Remarks about Clinton" – weit unterhalb der Schwelle von 0.2 Proportionen bleiben. Ihre geringe Sichtbarkeit ist kein Indikator ihrer Irrelevanz, sondern verweist auf die politische Agenda der digitalen Massen. Plattformen wie Twitter verhalten sich dabei nicht neutral: Sie strukturieren Sichtbarkeit nach algorithmischen Prioritäten, Verstärkungsmechanismen und Nutzerverhalten. Damit ist jedes quantitative Ergebnis nicht nur Ausdruck gesellschaftlicher Relevanz, sondern auch Spiegel algorithmisch gesteuerter Öffentlichkeit.

Für die Analyse politischer Kommunikation ergibt sich daraus ein ambivalentes Verhältnis zwischen Datenobjekt und Deutung. Die hohe Sichtbarkeit eines Themas ist nicht zwingend ein Ausdruck objektiver Bedeutung, sondern oft Resultat digitaler Erregungsdynamiken – verstärkt durch Medienereignisse, Hashtag-Kampagnen, Bot-Aktivitäten oder orchestrierte Informationsstrategien. Wer politische Stimmungen aus Daten lesen will, muss daher nicht nur die Zahlen interpretieren, sondern auch verstehen, wie diese Zahlen zustande kommen.

Ergänzend ist zu verstehen, dass politische Online-Kommunikation nicht entlang isolierter Themenstränge verläuft, sondern durch Cross-Referenzierungen geprägt ist. Das heißt: Ein Tweet über Terrorismus kann zugleich auf Einwanderungspolitik, Trump oder das FBI referieren. Themen existieren nicht nebeneinander, sondern durchdringen sich strukturell. In den Daten spiegelt sich das durch Scrollverläufe, die quer durch alle Topics hinweg analysiert wurden. Der Ausdruck "scrolls of all topics on a particular day" ist dabei kein zufälliger Einschub – sondern zeigt auf, dass politische Wahrnehmung tagesaktuell multiple Ebenen umfasst.

Was über die bloße Zahlenerhebung hinaus bedacht werden muss: Politische Deutungsmacht entsteht nicht allein durch Sichtbarkeit, sondern durch Kontextualisierung. Daten allein erzeugen

Wie werden Themen in mehrstufigen Textströmen identifiziert und analysiert?

Die Herausforderung bei der Analyse von Textströmen aus verschiedenen Quellen – wie Umfragen, Zeitungsartikeln und sozialen Medien – besteht darin, eine kohärente und vergleichbare Themenstruktur zu entwickeln. Anstatt separate Themenlisten für jeden einzelnen Datenstrom zu führen, wird eine übergreifende, gemeinsame Themenliste pro Kandidat verwendet. Diese Herangehensweise erleichtert die vergleichende Analyse und den zeitlichen Verlauf von Themen über unterschiedliche Plattformen hinweg. Allerdings führt dies auch dazu, dass plattformspezifische Wörter wie Hashtags oder besondere Ausdrucksweisen in die allgemeinen Themenlisten integriert werden müssen, was die Komplexität erhöht.

Für die Zuordnung der Themen zu einzelnen Textdokumenten wurde eine simple Methode gewählt: Jedes Dokument wird anhand der gewichteten Summe der enthaltenen Wörter bewertet, die in der Themenliste vermerkt sind. Das Thema mit dem höchsten gewichteten Wert wird als das Hauptthema des Dokuments bestimmt. Varianten, die mehrere Themen gleichzeitig berücksichtigen, zeigten aufgrund der unterschiedlichen Dynamiken der Datenströme keine stabileren Ergebnisse. Die Fokussierung auf ein einziges Hauptthema je Dokument bietet daher eine klare und konsistente Klassifikation.

Trotz der einfachen Methodik wird anerkannt, dass die gewählten Themenlisten weder vollständig noch perfekt sind. Dennoch spiegeln sie die dominanten Diskussionen in den jeweiligen Datenquellen relativ gut wider. Ein dynamisches, zeitlich adaptierbares Thema-Wort-Set, das sich den Veränderungen der Diskurse anpasst, wäre für weiterführende Analysen wünschenswert. Automatisierte Topic-Modeling-Algorithmen stehen zwar zunehmend zur Verfügung, haben jedoch Schwierigkeiten mit „Noise“, häufigen, aber wenig relevanten Begriffen („Flood words“), Subthemen und insbesondere der zeitlichen Dimension.

Die Darstellung der Themenverläufe in unterschiedlichen Zeitauflösungen eröffnet wichtige Einblicke: Monatliche Wortfrequenzen erfassen eher persistente oder mehrfach auftretende Begriffe, während tägliche Themenfrequenzen die kurzzeitigen Schwankungen und die unmittelbare Reaktion auf aktuelle Ereignisse verdeutlichen. Diese Kombination erlaubt eine differenzierte Sicht auf die Entwicklung von Diskussionen, die sich je nach Plattform und Nachrichtenlage stark unterscheiden kann.

Bei der Analyse sozialer Netzwerke in sozialen Medien, insbesondere Twitter, eröffnet sich ein weiterer Blickwinkel auf die Informationsverbreitung. Retweets werden als Indikatoren für die Weiterleitung und Verstärkung von Inhalten betrachtet. Netzwerke entstehen, indem Akteure (z. B. Journalist*innen) als Knoten und deren Beziehungen, hier die Follower-Followee-Verbindungen, als gerichtete Kanten modelliert werden. Die Richtung der Kanten zeigt, wer wem folgt, also von wem die Information empfangen wird. Die Untersuchung solcher Netzwerke ermöglicht es, die zentrale Rolle einzelner Akteure, insbesondere etablierter Medienvertreter, im Informationsfluss zu identifizieren.

Wichtige Netzwerkmetriken wie der Grad (die Anzahl der Verbindungen), der Eingangs- und Ausgangsgrad (Anzahl der eingehenden und ausgehenden Verbindungen) sowie der Clustering-Koeffizient (Maß für die Vernetzung innerhalb eines Knotenumfelds) geben Aufschluss über die Struktur und Dynamik dieser Kommunikationsnetzwerke. Die Analyse von Retweet-Netzwerken während bedeutender Ereignisse, etwa politischen Debatten, illustriert exemplarisch, wie Nachrichten innerhalb von Journalisten-Communities zirkulieren und welche Akteure als Multiplikatoren fungieren.

Über die reine Beobachtung hinaus ist es wichtig, die Dynamik und Evolution der Themen und Netzwerke in ihrer wechselseitigen Beziehung zu verstehen. Themen können durch Netzwerke verstärkt oder abgeschwächt werden, und umgekehrt formen sich Netzwerke durch geteilte Inhalte und Interessen. Diese komplexe Interaktion ist entscheidend, um das Verhalten und die Wirkung von Kommunikation in der modernen Medienlandschaft zu begreifen.

Die Integration von zeitlich feingliedrigen Themenanalysen mit Netzwerkdaten bietet ein umfassendes Bild der Informationslandschaft. Es ist von zentraler Bedeutung, die methodischen Einschränkungen, insbesondere die Vereinfachung auf ein Hauptthema pro Dokument und die Herausforderungen automatisierter Topic-Modelle, kritisch zu reflektieren. Nur durch ein Bewusstsein dieser Limitationen kann die Interpretation der Daten präzise und kontextsensitiv erfolgen.

Endtext