Die Forschung im Bereich des aktiven Lernens (Active Learning, AL) hat in den letzten Jahren erhebliche Fortschritte gemacht, insbesondere durch die Verwendung von großen Sprachmodellen (LLMs) wie GPT-3. Diese Modelle haben sich als äußerst leistungsfähig erwiesen, wenn es darum geht, mit wenig Daten zu lernen und schnell nützliche Vorhersagen zu treffen. Ein besonders herausforderndes Problem, das im Kontext des aktiven Lernens häufig auftritt, ist das Cold-Start-Problem. Dieses Problem stellt sich vor allem in Szenarien, in denen zu Beginn nur eine geringe Menge an gelabelten Daten zur Verfügung steht, was den Lernprozess erheblich erschwert. Die Suche nach effektiven Lösungen für dieses Problem hat eine neue Richtung eingeschlagen, die auch die Integration von LLMs in AL-Strategien umfasst.

Im traditionellen aktiven Lernen, insbesondere in Szenarien mit wenigen Beispielen (Few-Shot-Lernen), hängt die Auswahl relevanter Instanzen zur Erweiterung des Trainingsdatensatzes oft von einem vorher trainierten Modell ab. Jedoch fehlt es an ausreichendem Wissen, um fundierte Entscheidungen zu treffen, wenn das Modell mit sehr begrenzten Daten konfrontiert wird. Die Fähigkeit, Instanzen aus einem Pool ungelabelter Daten zu selektieren, ist entscheidend, um das Modell zu trainieren und zu verbessern. Die herkömmlichen Methoden leiden jedoch häufig unter der Einschränkung, dass sie zu Beginn des Trainings nicht genügend Wissen oder „Vertrauen“ aufbauen können, um zuverlässige Vorhersagen zu treffen.

Eine vielversprechende Lösung dieses Problems wird von Tsvigun et al. [448] vorgeschlagen, die das Abtrennen von Abfrage- und Nachfolgemodellen als vielversprechenden Ansatz für aktives Lernen betrachten. Dabei wird das Modell mit einer kleineren, ressourcenschonenden Version trainiert, um Daten effizient abzufragen und zu klassifizieren. Trotz der vielversprechenden Ergebnisse müssen jedoch immer noch distillierte Versionen verwendet werden, um die Leistungsfähigkeit der Modelle zu optimieren. Dies erfordert zusätzliche Rechenressourcen und Verfeinerungen, um die Qualität der Vorhersagen in den ersten Phasen des Lernprozesses zu gewährleisten.

Ein bedeutendes Forschungslückenproblem in der aktiven Lernforschung ist jedoch die Notwendigkeit, Modelle zu entwickeln, die ohne vorab gelabelte Daten effektiv arbeiten können. Insbesondere in wenigen-shot Szenarien, in denen die verfügbaren Daten äußerst begrenzt sind, kann das initiale Fehlen von gelabelten Beispielen zu einer unzureichenden Performance führen. Die ALPS-Methode, wie sie von Yuan, Lin und Boyd-Graber [517] vorgestellt wurde, geht auf dieses Problem ein, indem sie das BERT-Modell mit vorab trainierten Sprachmodellen kombiniert, um Instanzen zu clustern und so die Unsicherheit in der Anfangsphase des Lernprozesses zu verringern. Doch trotz einiger vielversprechender Ergebnisse zeigt die Forschung von Nguyen et al. [306], dass diese Methoden in der Praxis noch immer nicht alle Herausforderungen des Cold-Start-Problems beseitigen.

In diesem Kontext zeigt die vorgeschlagene AL-Strategie eine alternative Lösung, indem sie das Cold-Start-Problem umgeht. Die Methode, die in dieser Arbeit vorgeschlagen wird, erfordert keinerlei initial gelabelte Daten und kann somit sofort zu Beginn des Lernprozesses verwendet werden. Dies macht sie besonders geeignet für Low-Data-Szenarien, in denen traditionelle Modelle versagen oder an ihre Grenzen stoßen. Dies ermöglicht es, auch anderen aktiven Lernmethoden zu helfen, indem ihnen zunächst gelabelte Daten zur Verfügung gestellt werden, was eine viel schnellere und robustere Modellentwicklung ermöglicht.

Ein weiteres relevantes Thema in der modernen Forschung ist das Few-Shot-Lernen, das Szenarien abdeckt, in denen Modelle mit nur einer kleinen Anzahl an Trainingsinstanzen auskommen müssen. Dies ist besonders relevant für die Anwendung in realen Szenarien, in denen die Daten oft begrenzt sind, wie zum Beispiel in der medizinischen Diagnostik oder in spezialisierten technischen Bereichen. LLMs wie GPT-3 haben sich aufgrund ihrer beeindruckenden Zero-Shot- und Few-Shot-Fähigkeiten als sehr nützlich in solchen Szenarien erwiesen. Dennoch liegt der Fokus dieser Arbeit auf der Verbesserung des Few-Shot-Lernens in kleineren Modellen wie BERT. Diese Modelle haben den Vorteil, dass sie weniger Rechenressourcen benötigen und in vielen praktischen Anwendungen bevorzugt werden, da sie schneller und ressourcenschonender arbeiten als ihre größeren Gegenstücke.

Ein bemerkenswerter Ansatz in diesem Bereich ist ADAPET [431], das speziell dafür entwickelt wurde, Few-Shot-Modelle zu trainieren, die in der Lage sind, durch das Formulieren von Aufgaben als Cloze-Tests eine hohe Leistung zu erzielen. Dabei wird das Sprachmodell so trainiert, dass es Lücken in Texten füllt, ohne dass zusätzliche Klassifikationsköpfe trainiert werden müssen. Dies ermöglicht eine effizientere Nutzung von Sprachmodellen und reduziert gleichzeitig die Notwendigkeit für aufwendige Datenvorbereitung und -klassifikation. Auch andere Methoden wie SetFit, bei dem ein Satztransformator für die Feinabstimmung verwendet wird, haben sich als vielversprechend erwiesen, um diese Art von Few-Shot-Lernen zu verbessern. Dennoch sind in vielen Szenarien immer noch Herausforderungen zu bewältigen, insbesondere wenn nur sehr wenige Instanzen zur Verfügung stehen.

Diese Arbeit geht jedoch einen Schritt weiter, indem sie eine AL-Strategie vorschlägt, die die Auswahl von Instanzen mithilfe von LLMs unterstützt. Dadurch kann die Flexibilität und Effizienz von kleineren Modellen mit der strategischen Anleitung von LLMs kombiniert werden, was zu einer erheblichen Verbesserung der Few-Shot-Lernmethoden führt. In diesem Kontext wird auch Transferlernen als eine vielversprechende Technik verwendet, um Wissen aus verwandten Domänen zu übertragen und so auch in wenigen-shot Szenarien eine starke Grundlage zu bieten. Dabei wird auch Datenaugmentation, insbesondere durch den Einsatz von LLMs, als eine Möglichkeit genutzt, synthetische Daten zu generieren, um das Training in Low-Data-Szenarien zu unterstützen.

Es ist wichtig zu verstehen, dass diese Fortschritte nicht nur den Zugang zu größeren Sprachmodellen wie GPT-3 betreffen, sondern auch die praktischen Herausforderungen, die mit ihrer Nutzung verbunden sind. Zum Beispiel gibt es häufig Bedenken hinsichtlich der Kosten und des Speicherbedarfs von LLMs, was ihre breite Anwendung in ressourcenbeschränkten Umgebungen einschränkt. Aus diesem Grund werden kleinere Modelle wie BERT weiterhin bevorzugt, insbesondere wenn es um Inferenz und Echtzeitanwendungen geht. Die vorgeschlagene Methode nutzt daher die Stärken beider Ansätze – die Effizienz kleiner Modelle und die leistungsstarke Anleitung großer LLMs – und bietet so einen innovativen Weg, um die aktuellen Herausforderungen im Bereich des Few-Shot-Lernens und des aktiven Lernens zu überwinden.

Wie wirken sich große Sprachmodelle auf die Auswahl von Trainingsdaten aus?

Die Leistungsfähigkeit großer Sprachmodelle (LLMs) wie GPT-4 hat die Landschaft des maschinellen Lernens erheblich verändert. Sie bieten nicht nur herausragende Fähigkeiten zur Textgenerierung, sondern auch zur Mustererkennung und Identifikation von Themen in Texten. Diese Eigenschaften machen LLMs zu einem wertvollen Werkzeug, insbesondere im Bereich des aktiven Lernens, wo es darum geht, gezielt Trainingsbeispiele auszuwählen. Doch trotz ihrer Vielseitigkeit gibt es Herausforderungen, die es zu berücksichtigen gilt, wenn man LLMs für diesen Zweck einsetzt.

Einer der bemerkenswerten Vorteile von LLMs ist ihre Fähigkeit, Unterschiede zwischen Beispielen zu erkennen und so relevante, repräsentative oder informationsträchtige Instanzen auszuwählen. Dies unterscheidet sie von traditionellen Modellen, die häufig auf vorab definierte Parameter angewiesen sind und keine tiefere Einsicht in den Kontext eines Textes haben. LLMs können jedoch nicht auf ihre eigenen internen Prozesse zugreifen, was bedeutet, dass sie Unsicherheit nicht direkt aufgrund ihrer internen Mechanismen erkennen können. In praktischen Anwendungen zeigt sich, dass sie oft in der Lage sind, schwierige oder mehrdeutige Beispiele zu identifizieren, was besonders in iterativen Abfrageprozessen von Vorteil ist. Hier versuchen LLMs, durch die Analyse vergangener Instanzen Redundanzen zu vermeiden und gleichzeitig problematische Beispiele zu markieren, die für das Nachfolgemodell potenziell lehrreich sein könnten.

Es gibt jedoch auch Einschränkungen bei der Verwendung von LLMs im aktiven Lernen. Ein zentrales Problem besteht in den hohen Ressourcenanforderungen, die für die Nutzung solcher Modelle notwendig sind. Das Training von LLMs erfordert enorme Rechenkapazitäten und verursacht hohe API-Kosten, die den Einsatz solcher Modelle für viele kleinere Organisationen oder individuelle Nutzer erschweren. Hier bietet sich eine interessante Lösung: BERT-ähnliche Modelle, die in vielen praktischen Anwendungen nach wie vor die bevorzugte Wahl darstellen. Diese Modelle sind ressourcenschonender, effizienter und können nach Feinabstimmung auf domänenspezifische Aufgaben durchaus konkurrenzfähig sein.

Eine weitere Herausforderung bei der Verwendung von LLMs für das aktive Lernen ist der Datenschutz. Während das Training solcher Modelle erhebliche Vorteile hinsichtlich der Datenverarbeitung und -analyse bietet, kann es auch zu Problemen bei der Wahrung der Privatsphäre kommen, insbesondere wenn sensible oder personenbezogene Daten verwendet werden. Deshalb setzt der vorgestellte ActiveLLM-Ansatz auf eine begrenzte Nutzung von LLMs während der Phase der Datenkennzeichnung und vermeidet die Notwendigkeit einer dauerhaften Verbindung zu externen APIs nach dem Training. Dies ermöglicht es, die Effizienz des Trainings zu maximieren, ohne auf externe Quellen angewiesen zu sein, und gleichzeitig die Privatsphäre der Daten zu wahren.

Zukunftsperspektiven zeigen jedoch, dass die Optimierung von Prompts und Pipelines für LLMs noch nicht abgeschlossen ist. Es wird erwartet, dass zukünftige Arbeiten sich stärker mit der Verbesserung von LLM-Architekturen befassen, um sie noch besser an den spezifischen Kontext anzupassen. In dieser Hinsicht könnte das Modell von ActiveLLM auch auf die Auswahl von Trainingsbeispielen für In-Context Learning von LLMs angewendet werden, was weitere interessante Möglichkeiten für die Verbesserung der Performance solcher Modelle eröffnet.

Ein weiteres interessantes Thema in diesem Zusammenhang ist die Frage der Anpassung von Prompts an unterschiedliche Modelle und Datensätze. Ein adaptiver Ansatz könnte es ermöglichen, die Performance von LLMs für spezifische Anwendungsfälle weiter zu steigern. Auch wenn dies zusätzliche Hyperparameter erfordert, könnte dies in vielen Fällen zu einer deutlichen Leistungssteigerung führen. Zudem ist es von Bedeutung, dass bei der Auswahl von Trainingsbeispielen und der Optimierung der Prompts darauf geachtet wird, dass keine Verzerrungen durch bekannte Benchmark-Datensätze entstehen, die in das Training der Modelle eingeflossen sein könnten. Dies könnte die Ergebnisse verfälschen und die Anwendbarkeit der Modelle auf neue, unbekannte Daten beeinträchtigen.

Die Diskussion um LLMs im aktiven Lernen ist jedoch nicht nur theoretischer Natur. In der Praxis zeigen Experimente, dass diese Modelle in ihrer aktuellen Form durchaus nützlich sein können, wenn es um die Auswahl von Trainingsbeispielen geht. Insbesondere in ressourcenbeschränkten Umgebungen, in denen der Zugriff auf leistungsstarke Hardware und umfangreiche Datensätze begrenzt ist, bieten LLMs einen interessanten Kompromiss zwischen Leistung und Kosten. Der Einsatz von LLMs über kostengünstige Schnittstellen oder APIs könnte es ermöglichen, diese Modelle auch für kleinere Projekte zugänglich zu machen, was die Forschung und Entwicklung im Bereich des aktiven Lernens weiter vorantreiben würde.

Ein weiterer wichtiger Aspekt bei der praktischen Anwendung von LLMs ist die Frage nach der Größe des Kontextes. LLMs sind in der Lage, mit langen Texteingaben zu arbeiten, jedoch zeigte sich in den experimentellen Ergebnissen, dass diese Modelle Schwierigkeiten haben, längere Kontexte effektiv zu verarbeiten und relevante Informationen aus größeren Textmengen zu extrahieren. Dies stellt eine Limitation dar, die in zukünftigen Arbeiten adressiert werden muss, insbesondere im Hinblick auf die Token-Anzahl und die Struktur von Prompts. Es bleibt zu klären, wie solche Modelle noch effizienter auf längere Instanzen reagieren können, ohne den Bezug zur Aufgabe oder die wichtigen Informationen zu verlieren.

Die Möglichkeiten, die LLMs für das aktive Lernen bieten, sind weitreichend, und die Forschung in diesem Bereich wird weiterhin spannende neue Erkenntnisse liefern. Angesichts der anhaltenden Entwicklungen in der Optimierung von Trainingsmethoden und der Verfeinerung von Modellarchitekturen ist es zu erwarten, dass LLMs in der Zukunft noch stärker in den Mittelpunkt praktischer Anwendungen rücken werden. Doch um das volle Potenzial dieser Modelle auszuschöpfen, sind noch zahlreiche Herausforderungen zu meistern – sei es in Bezug auf Rechenressourcen, Datenschutz oder die spezifische Anpassung an verschiedene Anwendungsfelder.

Wie strukturierte Textmodifikation und Generierungsmethoden die Textdatenaugmentierung verbessern

In der Textdatenaugmentierung werden verschiedene Techniken verwendet, um bestehende Datensätze zu erweitern, indem neue, modifizierte Datenpunkte erzeugt werden. Diese Methoden sind besonders wichtig in Bereichen wie der natürlichen Sprachverarbeitung, in denen große Mengen an Trainingsdaten für maschinelles Lernen benötigt werden. Eine der bedeutendsten Herausforderungen besteht darin, die Qualität und Relevanz der erzeugten Daten zu gewährleisten, ohne die Semantik der Originaltexte zu verfälschen.

Eine der grundlegenden Methoden zur Textaugmentation ist die strukturierte Modifikation auf Phrase- und Satzebene, bei der bestimmte grammatikalische Strukturen verwendet werden, um die Texte zu verändern. Hierbei können Abhängigkeits- und Konstituentengrammatiken oder POS-Tags (Part-of-Speech-Tags) als Grundlage dienen. Solche Techniken ermöglichen es, Sätze so zu verändern, dass sie grammatikalisch korrekt bleiben, jedoch in ihrer Form und Struktur variieren. Ein Beispiel hierfür ist die Methode des „Cropens“, bei der Sätze gekürzt werden, um sich auf die Subjekte und Objekte zu konzentrieren. Eine weitere Technik ist die „Rotation“, bei der flexible Satzfragmente verschoben werden. Obwohl diese Methoden vor allem für Sprachen mit wenig Ressourcen wie beispielsweise in vielen afrikanischen oder asiatischen Sprachen geeignet sind, zeigen sie in Sprachen wie Englisch oft nur geringe Vorteile und können sogar Rauschen erzeugen.

Feng et al. (2014) schlugen eine Methode vor, bei der die Semantik eines Textes geändert wird, während seine Sprachflüssigkeit und Sentiment erhalten bleiben. Diese „Semantic Text Exchange“-Methode identifiziert in einem Text Phrasen, die durch Ersatzphrasen ersetzt werden können. Mithilfe eines aufmerksamkeitsbasierten Sprachmodells werden dann ähnliche Wörter eingefügt, die besser zur neuen Ersetzungseinheit passen. Allerdings wurde auch festgestellt, dass diese Methode die Sprachflüssigkeit und die Vielfalt des Textes verringert und die semantische Integrität beeinträchtigen kann. In ihrem Experiment mit dem Yelp Review-Datensatz ergaben sich diese negativen Auswirkungen, was auf die begrenzte Eignung dieser Methode für kürzere Texte hinweist.

Ein weiteres bemerkenswertes Konzept ist das Inversionsverfahren, das von Min et al. (2017) vorgeschlagen wurde. Hierbei werden Subjekt und Objekt eines Satzes vertauscht, um die Generalisierungsfähigkeit in natürlichen Sprachinferenzaufgaben zu verbessern. Diese Methode, die ursprünglich in der Anwendung von BERT auf das MNLI-Datenset (Multi-Genre Natural Language Inference) untersucht wurde, zeigt, dass selbst eine begrenzte Anwendung von Datenaugmentationstechniken eine signifikante Verbesserung der Modellleistung bei der Bearbeitung von Aufgaben wie der natürlichen Sprachinferenz bewirken kann.

Im Bereich der numerischen Analyse wird Interpolation als Verfahren genutzt, um aus bestehenden Datenpunkten neue zu erstellen. Im Kontext der Textdatenaugmentation wird das Verfahren jedoch anders betrachtet. Die Methode SUB2 von Shi, Livescu und Gimpel (2019) basiert auf der Idee, Substrukturen von Trainingsbeispielen zu ersetzen, wenn diese dieselbe gekennzeichnete Bezeichnung haben. Beispielsweise könnte die Phrase „a [DT] cake [NN]“ durch „a [DT] dog [NN]“ ersetzt werden. Diese Substitutionen sind auf die Ersetzung von Phrasen innerhalb eines Textes beschränkt, die dieselbe Länge, denselben POS-Tag und denselben Klassifikationslabel haben. Die Anwendung dieser Methode führte zu einer Verdopplung der Genauigkeit bei Klassifikationsaufgaben mit den Datensätzen SST-2 und AG News.

Auf der Dokumentebene wird die Methode der „Round-Trip Translation“ immer populärer. Hierbei wird ein Text in eine andere Sprache übersetzt (Forward-Translation) und anschließend wieder zurück in die Ausgangssprache übersetzt (Back-Translation). Dieser Prozess führt oft zu einer Variation der Begriffe und Satzstrukturen, was zur Erzeugung von Paraphrasen führen kann. Die Qualität der Paraphrasen ist jedoch stark von der verwendeten Übersetzungsmaschine und den angewandten Filtrierungstechniken abhängig. In einigen Fällen ist es notwendig, die Generierungsstrategie von Übersetzungsmodellen anzupassen, um eine größere Diversität und Vielfalt in den erzeugten Texten zu erreichen.

Die neueren generativen Methoden, die auf der Verwendung von Variational Autoencoders (VAEs) basieren, ermöglichen es, Textdaten noch realistischer und kreativer zu augmentieren. Ein VAE besteht aus einem Encoder-Netzwerk, das die Eingabedaten in eine latente Repräsentation transformiert, und einem Decoder-Netzwerk, das diese Repräsentation wieder in Text umwandelt. Qiu et al. (2020) schlagen die Anwendung von VAEs in der Textgenerierung vor, sowohl in unbedingter als auch in bedingter Form. Bedingte VAEs (CVAEs) verwenden zusätzliche Eingaben, wie zum Beispiel Label-Informationen, um den generierten Text besser an bestimmte Anforderungen anzupassen. Diese Technologien ermöglichen es, eine größere Vielfalt und Kohärenz in der Textgenerierung zu erzielen.

Neben den beschriebenen Verfahren gibt es eine Vielzahl weiterer Ansätze zur Textdatenaugmentation, die für spezifische Anwendungen und Sprachmodelle optimiert werden können. Es ist jedoch wichtig zu verstehen, dass die Qualität der erzeugten Daten immer von der Fähigkeit der verwendeten Modelle abhängt, die semantische Integrität und die Sprachstruktur zu bewahren. In vielen Fällen müssen Methoden zur Textmodifikation sorgfältig auf die jeweilige Aufgabe und die jeweilige Sprache abgestimmt werden, um die gewünschten Ergebnisse zu erzielen. Ein tieferes Verständnis der zugrundeliegenden Modelle sowie deren Anwendung auf verschiedene Datensätze sind entscheidend, um von diesen Technologien zu profitieren und die Leistung von maschinellen Lernmodellen effektiv zu steigern.

Wie kann die Sicherheit bei der textbasierten Datenaugmentation mit generativen Sprachmodellen gewährleistet werden?

Die Generierung synthetischer Trainingsdaten mittels großer Sprachmodelle eröffnet neue Horizonte für die Datenaugmentation in der natürlichen Sprachverarbeitung. Diese Methode verspricht nicht nur eine Erhöhung der Varianz im Datensatz, sondern auch die Möglichkeit, semantisch sinnvolle und kohärente Texte zu erzeugen, die dennoch strukturell vom Ausgangsmaterial abweichen. Damit die erzeugten Texte jedoch nicht nur sprachlich plausibel, sondern auch inhaltlich korrekt und klassentreu sind, bedarf es spezifischer Sicherheitsmechanismen.

Eine erste entscheidende Maßnahme liegt in der Wahl des Präfix-Tokens, das jedem Trainingsbeispiel vorangestellt wird. Bei längeren Texten mit Kontextinhalt kann dieser Token kontextbasiert gewählt werden, beispielsweise durch Voranstellung der ersten Wörter oder eines Titels der Instanz. Dies erhöht die Diversität, da das Sprachmodell lernt, den jeweiligen Kontext als Ausgangspunkt für die Generierung zu nutzen. Fehlt ein sinnvoller Kontext – wie bei sehr kurzen Texten – wird ein instanzspezifischer numerischer Token verwendet. Dabei erhält jede Instanz eine eindeutige Nummer, etwa in der Form „<|startoftext|>|i|“. Da das Modell auf genau diesen Daten feinjustiert wird, entwickelt es die Fähigkeit, die Präfixe spezifischen Inhalten zuzuordnen und daraus konsistente Fortsetzungen zu generieren. Dies stärkt die semantische Kohärenz und erhöht die Wahrscheinlichkeit der Labeltreue.

Gleichzeitig ist es notwendig, durch gezielte Zufallssteuerung im Sampling – etwa über die Temperaturparameter im Bereich von 0,7 bis 0,9 – eine Balance zwischen Kreativität und Kontrolle zu halten. Eine zu geringe Temperatur führt zu deterministischen und damit möglicherweise redundanten Ausgaben, eine zu hohe erzeugt zwar sprachlich kreative, aber potentiell semantisch abweichende Texte. Nur durch eine präzise Justierung kann vermieden werden, dass das Modell lediglich aus dem Gedächtnis reproduziert und dabei relevante Labelinformationen verliert.

Im Anschluss an die Textgenerierung erfolgt ein Filterungsprozess, der auf dem Vergleich semantischer Ähnlichkeit basiert. Mittels Sentence-BERT werden für alle erzeugten Texte sowie die originalen Trainingsinstanzen Embeddings erzeugt. Diese Vektorraumdarstellungen erlauben eine Messung semantischer Nähe. Texte, deren Embedding zu weit vom Schwerpunktvektor (Centroid) der Zielklasse entfernt ist, werden verworfen. Hierzu wird ein Schwellwert δ festgelegt, etwa 0,3, der iterativ angepasst wird, bis eine adäquate Balance zwischen Beibehaltung nützlicher Instanzen und Ausschluss irrelevanter Texte gefunden ist. Dieser Prozess reduziert manuelle Eingriffe und sorgt für eine robuste Klassenspezifität der synthetischen Daten.

Die Implementierung dieses Verfahrens basiert auf GPT-