Die Forschung zu adversarischen Beispielen in maschinellen Lernmodellen hat in den letzten Jahren enorm zugenommen und stellt eine der größten Herausforderungen im Bereich der Künstlichen Intelligenz dar. Diese Art von Angriffen nutzt die Schwächen von Modellen aus, indem sie speziell gestaltete Datenpunkte einführt, die das Modell in die Irre führen. Obwohl die Hauptintention dieser Angriffe oft darin besteht, die Robustheit eines Systems zu testen oder zu brechen, zeigen sie auch tiefere Probleme in Bezug auf die Verlässlichkeit und Transparenz von maschinellen Lernmodellen.

In den letzten Jahren wurden zahlreiche Arbeiten veröffentlicht, die sich mit der Entstehung, dem Erkennen und der Abwehr dieser Angriffe befassen. Ein zentraler Aspekt dieser Forschungen ist die Tatsache, dass viele Modelle auf scheinbar unsichtbare Muster in den Eingabedaten reagieren, die für den Menschen nicht erkennbar sind, aber für die Maschine tiefgreifende Auswirkungen haben können. In diesem Kontext ist es entscheidend, dass Forscher und Entwickler sich mit der Frage beschäftigen, wie diese verzerrten Eingabedaten die Ausgaben eines Modells beeinflussen und welche Auswirkungen dies auf die praktischen Anwendungen von maschinellem Lernen hat.

Adversarielle Angriffe sind nicht nur auf das Bildverarbeitungsfeld beschränkt. Sie können auch in anderen Bereichen wie der natürlichen Sprachverarbeitung (NLP) auftreten, wo sie dazu verwendet werden, Textklassifikatoren oder maschinelle Übersetzungssysteme zu manipulieren. In der Praxis bedeutet dies, dass ein Angreifer ein Textbeispiel leicht so verändern könnte, dass ein Klassifikationssystem fälschlicherweise eine andere Kategorie zuordnet. Diese Form von Manipulation kann insbesondere in sicherheitskritischen Bereichen wie der Betrugserkennung, der Spamfilterung oder bei der Analyse von Nachrichten und sozialen Medien problematisch sein.

Ein weiteres bedeutendes Thema im Zusammenhang mit adversariellen Beispielen ist die Erklärbarkeit und Interpretierbarkeit von maschinellen Lernmodellen. Viele moderne Modelle, insbesondere tief lernende Netzwerke, agieren als „Black Boxes“, was bedeutet, dass es oft unklar ist, warum ein Modell eine bestimmte Entscheidung getroffen hat. Diese mangelnde Transparenz wird durch die Existenz von adversariellen Angriffen noch verschärft, da es noch schwieriger wird, nachzuvollziehen, wie ein Modell auf leicht manipulierte Eingabedaten reagiert. Dies führt zu einem Vertrauensproblem in die Technologie, insbesondere wenn es darum geht, sie in kritischen Anwendungen wie der Medizin oder im Rechtssystem einzusetzen.

Interessanterweise hat die Forschung auch gezeigt, dass es möglich ist, maschinelle Lernmodelle gegen solche Angriffe abzusichern. Techniken wie adversariales Training, bei dem das Modell explizit auf Angriffe trainiert wird, um seine Robustheit zu verbessern, haben sich als vielversprechend erwiesen. Dennoch bleibt die Frage offen, wie man diese Methoden effektiv auf alle möglichen Angriffsarten anwendet, und es gibt noch keine endgültige Lösung. Forscher wie Papernot et al. (2017) und andere haben dazu beigetragen, diese Angriffe systematisch zu kategorisieren und Werkzeuge zu entwickeln, die helfen, deren Auswirkungen zu mindern.

Neben der technischen Herangehensweise müssen auch ethische und gesellschaftliche Überlegungen in Betracht gezogen werden. Wie sehr vertrauen wir auf maschinelles Lernen, wenn wir wissen, dass es durch gezielte Manipulationen beeinflusst werden kann? In vielen Anwendungsfällen, von der personalisierten Werbung bis hin zur Gesichtserkennung, sind die Auswirkungen von fehlerhaften oder gezielt manipulierten Entscheidungen weitreichend. Es ist daher notwendig, dass zukünftige Entwicklungen im Bereich der Künstlichen Intelligenz nicht nur technische Robustheit, sondern auch gesellschaftliche Verantwortung und Transparenz berücksichtigen.

In Anbetracht dieser Herausforderungen ist es wichtig, dass Forscher und Entwickler, die mit maschinellem Lernen arbeiten, kontinuierlich die neuesten Erkenntnisse über adversarielle Angriffe verfolgen und in ihre Modellentwicklungen integrieren. Es reicht nicht aus, nur die Leistung eines Modells in standardisierten Tests zu überprüfen, sondern auch dessen Verhalten in realen, möglicherweise fehlerhaften oder manipulierten Szenarien zu verstehen und zu sichern. Nur so kann Vertrauen in die Technologie aufgebaut werden, das notwendig ist, um ihre weitreichende Einführung in gesellschaftlich wichtige Bereiche wie das Gesundheitswesen oder die öffentliche Sicherheit zu ermöglichen.

Wie lässt sich die Leistung von Modellen im maschinellen Lernen optimieren?

Die Geschwindigkeit eines Trainingsprozesses oder die Effizienz bei der Klassifikation von Beispielen sind zentrale Aspekte in der maschinellen Lernforschung. Abhängig vom Ziel der jeweiligen Arbeit kann die Betonung entweder auf der Reduzierung der Trainingszeit oder der Verbesserung der Klassifikationsgeschwindigkeit im Anwendungsbereich liegen. In Fällen, in denen ein schnelleres Training angestrebt wird, wird üblicherweise die Trainingszeit angegeben, während Arbeiten, die die Geschwindigkeit der Inferenz (also die Bewertung neuer Daten) optimieren wollen, auf die Evaluierungszeit der Testbeispiele fokussieren.

Wenn jedoch eine Untersuchung die Themen Privatsphäre, Erklärbarkeit oder die Resistenz gegenüber adversarialen Angriffen hervorheben möchte, kann sie stärker designorientiert sein, wobei die Ergebnisse häufig durch Beispiele oder Implementierungen demonstriert werden. Ein Beispiel für eine solche Praxis ist das Testen eines Modells auf seine Robustheit gegenüber adversarialen Angriffen, indem es mit verschiedenen, manipulierten Datenkombinationen geprüft wird. Eine gängige Methode in der Forschung ist auch die sogenannte Ablationsstudie, die eine systematische Untersuchung der Beiträge einzelner Komponenten oder Konfigurationen eines Modells ermöglicht. Hierbei werden Teile des Modells entfernt, um deren Einfluss auf das Endergebnis zu bewerten.

Ein weiterer wesentlicher Aspekt von Arbeiten im Bereich des maschinellen Lernens ist die Schaffung und Veröffentlichung von Datensätzen. Diese Praxis stellt einen wichtigen Beitrag für die Forschungsgemeinschaft dar, da Trainingsdaten für maschinelle Lernmodelle von entscheidender Bedeutung sind. Neben der Erstellung von Datensätzen und Modellen umfasst die Forschung auch vielfältige Methoden zur Validierung, Verifikation oder Reproduktion von Ergebnissen. In vielen Arbeiten im Bereich des tiefen Lernens werden Techniken für die Textklassifikation angewendet, die in verschiedenen Kontexten wie der Cybersecurity, der Analyse von Bedrohungsinformationen und der Extraktion von wichtigen Informationen aus offenen Quellen wie sozialen Medien eingesetzt werden.

Im Kontext der Cybersecurity-Forschung sind eine Vielzahl von Ansätzen relevant, etwa in den Bereichen der Kryptografie, Netzwerksicherheit, Software- und Hardware-Sicherheit, der Malware-Analyse sowie der Entwicklung von Technologien für Datenschutz und Privatsphäre. Besonders bemerkenswert ist die Anwendung maschinellen Lernens zur Reduktion der Informationsflut, die durch große Datenmengen aus offenen Quellen wie sozialen Medien entsteht. Diese Modelle ermöglichen es, spezifische oder besonders relevante Informationen zu extrahieren. In der Bedrohungsinformationsanalyse (Cyber Threat Intelligence, CTI) ist es zudem üblich, Datensätze und Datenbanken zu analysieren, um die Qualität von Informationen zu bewerten und Einblicke in vergangene Ereignisse zu gewinnen oder Trends zu identifizieren.

Im Rahmen dieser Dissertation wird die Extraktion spezifischer CTI-Informationen zur Reduzierung der Informationsüberlastung untersucht. Dies ist ein zentrales Anliegen des CYWARN-Projekts, das seit Oktober 2020 läuft und vom Bundesministerium für Bildung und Forschung (BMBF) gefördert wird. CYWARN zielt darauf ab, CERTs mit neuen Strategien und Technologien zur Sammlung, Analyse und Kommunikation von Cyber-Situationen zu unterstützen. Im Rahmen des Projekts wird ein Demonstrator entwickelt, der eine automatisierte Sammlung von Cybersecurity-Quellen sowie eine Datenbewertung mit Glaubwürdigkeitsanalyse und Informationspriorisierung ermöglicht.

Ein weiteres Projekt, das in diese Dissertation einfließt, ist CYLENCE, das sich auf die Bekämpfung von Cybermobbing und Hassrede konzentriert. Hier sollen neue Methoden zur Erkennung dieser Phänomene entwickelt und in einen Demonstrator integriert werden, der von Ermittlungs- und Strafverfolgungsbehörden genutzt werden kann. Die Ergebnisse dieser Dissertation tragen maßgeblich zur Verbesserung der Erkennungsmethoden bei und unterstützen damit das CYLENCE-Projekt.

Zusätzlich zur praktischen Forschung wird auf den Lichtenberg Hochleistungsrechner in Darmstadt verwiesen, der als Ressource für die Berechnungen des CYWARN-Projekts dient. Der Lichtenberg II-Rechner bietet verschiedene NVIDIA-Beschleuniger für das maschinelle Lernen und ist seit 2021 für das vorliegende Projekt verfügbar. Neben diesen technischen Ressourcen wurde die Dissertation auch durch die Zusammenarbeit mit dem Nationalen Forschungszentrum für Angewandte Cybersicherheit ATHENE unterstützt, einem Forschungszentrum für Cybersecurity und Datenschutz, das auch zur Weiterentwicklung sicherer städtischer Infrastrukturen und benutzerzentrierter Sicherheits- und Datenschutztechnologien beiträgt.

Im Bereich der Methodologie umfasst diese Dissertation eine Vielzahl von Studien, die verschiedene Phasen des maschinellen Lernprozesses abdecken – von der Datenerhebung und -vorverarbeitung über die Modellauswahl bis hin zur Vorhersage. Die Methodologie ist in verschiedenen Abschnitten unterteilt, die sich auf verschiedene Techniken und Evaluierungen konzentrieren, wobei ein besonderes Augenmerk auf die Anwendung von BERT-Modellen, Datenaugmentation und adversarialen Angriffen gelegt wird. So wird beispielsweise das Fine-Tuning von BERT für spezifische Anwendungsbereiche der Cybersecurity und die Analyse der Glaubwürdigkeit von Quellen untersucht.

Das Verfahren umfasst umfassende Literaturanalysen zur Identifikation von Forschungslücken und die Entwicklung maßgeschneiderter Techniken. Die Anwendung dieser Methoden wurde systematisch evaluiert, wobei ein besonders fokussierter Ansatz auf die Verbesserung der Klassifikationsgenauigkeit und die Steigerung der Robustheit gegenüber feindlichen Angriffen gelegt wurde.

Insgesamt trägt diese Dissertation nicht nur zu den Fortschritten im Bereich der Cybersecurity und der Bedrohungsinformationsanalyse bei, sondern bietet auch einen tiefgehenden Einblick in die Anwendung von fortgeschrittenen maschinellen Lerntechniken zur Lösung realer, komplexer Probleme. Dabei wird deutlich, dass eine kontinuierliche Verbesserung der Modellleistung, insbesondere durch Methoden wie Transferlernen und Active Learning, notwendig ist, um die Herausforderungen der digitalen Welt erfolgreich zu meistern.

Wie können wir die Glaubwürdigkeit von Inhalten auf Twitter bewerten und missbräuchliche Informationen erkennen?

Die Analyse von Inhalten in sozialen Netzwerken, insbesondere von Tweets, hat sich als ein zentraler Bestandteil der Krisenkommunikation herauskristallisiert. Dies ist besonders wichtig in Notfällen, in denen rasche und präzise Informationsverbreitung notwendig ist. Das Vertrauen in die verarbeiteten Informationen kann jedoch durch die Verbreitung von Fehlinformationen und Missbrauch von Plattformen wie Twitter beeinträchtigt werden. Verschiedene Forschungsansätze haben deshalb Methoden entwickelt, um die Glaubwürdigkeit von Twitter-Inhalten zu bewerten, was entscheidend für die schnelle Reaktion auf Krisensituationen ist.

Ein bedeutender Schritt in dieser Richtung wurde von Aditi Gupta und Kollegen unternommen, die ein Modell zur Echtzeitbewertung der Glaubwürdigkeit von Inhalten auf Twitter entwickelten. Ihr Ansatz, bekannt als TweetCred, zielt darauf ab, die Wahrscheinlichkeit der Richtigkeit von Tweets in Krisenzeiten schnell zu bewerten. Indem bestimmte Merkmale wie die Häufigkeit von Retweets, die Quellen von Tweets und das allgemeine Nutzerverhalten untersucht werden, lässt sich eine erste Einschätzung darüber treffen, ob ein Tweet vertrauenswürdig ist oder möglicherweise auf Fehlinformationen basiert.

Ein weiteres Beispiel ist die Arbeit von Matthias Habdank und Kollegen, die sich mit der Relevanzbewertung von Tweets befassen. In ihrer Studie zur automatisierten Relevanzklassifikation von Tweets im Kontext von Notfällen wurde ein Verfahren entwickelt, das den Einsatz von überwachten Lerntechniken nutzt, um zu bestimmen, ob ein Tweet für die Krisenbewältigung relevant ist. In ähnlicher Weise fokussiert sich das Konzept der "Crisis Informatics" auf die Notwendigkeit, ein systematisches Verständnis von Informationsströmen während einer Krise zu entwickeln. Hierbei werden sowohl die Quelle als auch der Inhalt von Tweets berücksichtigt, um deren mögliche Auswirkungen auf die Krisenbewältigung zu beurteilen.

Darüber hinaus spielt die Untersuchung von Fehlinformationen eine zentrale Rolle. Katrin Hartwig und ihre Kollegen untersuchten die Art und Weise, wie misleading information (irreführende Information) in Krisen durch Indikatoren wie die Wortwahl und das Nutzerverhalten erkannt werden kann. In der Praxis kann dies helfen, schnelle Entscheidungen zu treffen, welche Inhalte weiterverbreitet oder ignoriert werden sollten.

Um Missbrauch auf sozialen Netzwerken weiter zu bekämpfen, wurden auch Ansätze entwickelt, die maschinelles Lernen und künstliche Intelligenz nutzen. Ein Beispiel dafür ist das Projekt "Deep Speech" von Awni Y. Hannun und Kollegen, das darauf abzielt, sprachliche Inhalte durch fortschrittliche Sprachmodelle zu verarbeiten und so auch die Genauigkeit der ermittelten Daten zu verbessern. Dies könnte in Zukunft als Grundlage für die Analyse von Audio- und Video-Inhalten dienen, die während Krisensituationen in sozialen Medien geteilt werden.

In Bezug auf den Fortschritt der Textklassifikation bietet die Forschung von Yi-Qi Hu und Yang Yu zu neuronalen Architekturen interessante Perspektiven für die Verbesserung der Analyse von Tweets. Sie zeigen auf, wie durch gezielte Modellanpassungen eine genauere Einschätzung von Texten in sozialen Medien erreicht werden kann. Diese Methoden der Sprachmodellierung sind von zentraler Bedeutung, da sie das Fundament für die Identifikation von Fake News und Fehlinformationen bieten.

Ein weiterer wichtiger Bereich ist die Datenaugmentation. Sie wird von Alex Hernández-García und Peter König als eine effektive Technik zur Verbesserung der Robustheit von Modellen hervorgehoben. Bei der Datenaugmentation wird das Trainingsmaterial künstlich erweitert, um ein Modell widerstandsfähiger gegen verschiedene Formen der Manipulation zu machen. Besonders bei der Erkennung von Fehlinformationen in sozialen Medien ist eine große Vielfalt an Trainingsdaten entscheidend, um das Modell auf die Vielzahl möglicher Szenarien vorzubereiten.

Die Rolle von maschinellem Lernen und KI in der Notfallbewältigung und der Analyse von Social Media-Inhalten darf nicht unterschätzt werden. Diese Technologien bieten die Möglichkeit, nicht nur Informationen schnell zu filtern, sondern auch vorherzusagen, welche Inhalte zu einer Verschärfung oder Beruhigung der Krise führen könnten. In diesem Zusammenhang ist es von entscheidender Bedeutung, dass zukünftige Systeme nicht nur in der Lage sind, Fehlinformationen zu erkennen, sondern auch das Vertrauen der Nutzer in die genutzten Informationskanäle zu stärken.

Ein weiterer Aspekt, der nicht unbeachtet bleiben sollte, ist die Frage der Transparenz. Es ist wichtig, dass sowohl die Technologien zur Bewertung von Inhalten als auch die Daten, auf denen sie basieren, transparent sind. Nur so können die Nutzer Vertrauen in die verwendeten Systeme und deren Ergebnisse haben. Dies stellt sicher, dass Entscheidungen auf einer objektiven und nachvollziehbaren Grundlage beruhen.

Die Forschung zeigt eindeutig, dass die Bewertung der Glaubwürdigkeit von Informationen auf Twitter und ähnlichen Plattformen eine Schlüsselrolle in der Krisenkommunikation spielt. Gleichzeitig müssen wir uns der Komplexität bewusst sein, die mit der Bewertung von Fehlinformationen verbunden ist. Die Herausforderung besteht nicht nur darin, falsche Informationen zu erkennen, sondern auch in der Entwicklung von Systemen, die den breiten Kontext und die möglichen Auswirkungen dieser Informationen verstehen.

Wie BERT zum Erkennen von Social Engineering E-Mails eingesetzt werden kann

Das Verständnis und die Bekämpfung von Social Engineering E-Mails ist heutzutage ein unverzichtbarer Bestandteil der Cybersicherheit. Angriffe dieser Art nutzen die menschliche Psychologie aus, um Opfer zu manipulieren und sie dazu zu bringen, sensible Informationen preiszugeben oder sicherheitsrelevante Handlungen auszuführen. Eine der neueren Entwicklungen in der Bekämpfung solcher Angriffe ist der Einsatz von maschinellen Lernmodellen, insbesondere BERT (Bidirectional Encoder Representations from Transformers), zur automatisierten Erkennung von Social Engineering E-Mails.

Die Basis von BERT liegt in seiner Fähigkeit, den Kontext von Wörtern innerhalb eines Textes bidirektional zu verstehen. Dies bedeutet, dass BERT die Beziehungen zwischen Wörtern nicht nur in der Reihenfolge, in der sie erscheinen, berücksichtigt, sondern auch in einem tiefergehenden Zusammenhang, was besonders bei der Analyse von E-Mails und deren Intentionen von Bedeutung ist. Bei der Erkennung von Social Engineering E-Mails ist es wichtig, dass das Modell in der Lage ist, subtile sprachliche Muster zu identifizieren, die auf eine manipulative Absicht hinweisen.

In der Praxis bedeutet dies, dass BERT in Kombination mit Techniken wie Transferlernen und feinabgestimmtem Training auf spezifische E-Mail-Daten angewendet wird, um potenziell schadhafte Nachrichten zu erkennen. BERT analysiert hierbei nicht nur den Inhalt der E-Mail, sondern auch die Kommunikationsmuster, die häufig bei Social Engineering Angriffen verwendet werden. Dazu gehören etwa vermeintlich dringende Handlungsaufforderungen, die darauf abzielen, den Empfänger zu einer schnellen und emotional getriebenen Reaktion zu bewegen.

Wissenschaftliche Studien und Veröffentlichungen haben gezeigt, dass BERT in der Lage ist, nicht nur einfache Phishing-E-Mails zu identifizieren, sondern auch komplexere Angriffe, bei denen die Täter fortgeschrittene Täuschungstechniken verwenden. Diese Angriffe zeichnen sich durch eine hohe Täuschungsqualität und eine sorgfältige Gestaltung der E-Mail aus, um das Vertrauen des Empfängers zu gewinnen. In diesem Kontext hat die kontinuierliche Verbesserung der Modellarchitektur und der Trainingsdatenqualität einen entscheidenden Einfluss auf die Erkennungsrate und die Minimierung von False Positives.

Es ist jedoch wichtig zu betonen, dass auch BERT nicht unfehlbar ist. Ein massiver Nachteil von maschinellen Lernmodellen in der Cybersicherheit besteht darin, dass sie auf den Daten basieren, mit denen sie trainiert wurden. Das bedeutet, dass Angreifer, die sich der Verwendung solcher Modelle bewusst sind, versuchen können, ihre Angriffe so zu gestalten, dass sie den Erkennungsmechanismen entgehen. Hier kommen Techniken wie adversariale Angriffe ins Spiel, bei denen E-Mails absichtlich so manipuliert werden, dass sie die Erkennungsmechanismen von BERT und ähnlichen Modellen überlisten. Dies erfordert eine ständige Weiterentwicklung und Anpassung der Modelle, um mit neuen Angriffstechniken Schritt zu halten.

Ein weiterer wichtiger Aspekt in der Anwendung von BERT zur Erkennung von Social Engineering E-Mails ist die Optimierung des Trainingsprozesses. Viele Modelle, einschließlich BERT, benötigen eine enorme Menge an annotierten Daten, um effektiv zu lernen. In realen Szenarien sind solche annotierten Daten jedoch nicht immer in ausreichendem Maße verfügbar. Daher wird zunehmend auf Methoden wie aktive Lernverfahren und Datenaugmentation zurückgegriffen, um den Trainingsprozess zu verbessern und die Genauigkeit des Modells zu steigern. Dabei können beispielsweise durch verstärkendes Lernen neue synthetische E-Mails generiert werden, die eine breite Vielfalt von Angriffsmustern abdecken, um das Modell auf eine noch breitere Palette von möglichen Social Engineering Angriffen vorzubereiten.

Das Verständnis der Grenzen und Stärken von BERT ist von entscheidender Bedeutung für die erfolgreiche Implementierung dieses Modells in der Praxis. Obwohl es in der Lage ist, viele gängige und auch komplexe Angriffe zu erkennen, stellt die ständige Weiterentwicklung der Angriffstechniken eine fortwährende Herausforderung dar. Besonders im Hinblick auf die schnellen Änderungen in der Taktik und Strategie von Cyberkriminellen muss die Cybersicherheitsgemeinschaft eine kontinuierliche Anpassung und Verbesserung der Modelle sicherstellen, um ihre Wirksamkeit zu gewährleisten.

Zusätzlich ist es für Unternehmen und Organisationen wichtig, nicht nur auf maschinelles Lernen als einziges Mittel zur Abwehr von Social Engineering-Angriffen zu setzen. Ein ganzheitlicher Sicherheitsansatz, der auf Schulung und Sensibilisierung der Mitarbeiter, dem Einsatz von mehrstufigen Authentifizierungsmechanismen sowie der Analyse von verdächtigen E-Mails und Verhaltensmustern beruht, ist unerlässlich, um den fortwährenden Bedrohungen durch Social Engineering wirksam entgegenzutreten. Denn trotz aller Fortschritte in der automatisierten Erkennung bleibt der menschliche Faktor eine der größten Schwächen im System der Cybersicherheit.