V roce 2019 se na konferenci Association for Computational Linguistics objevila studie, která zkoumala, jak modely jako BERT (Bidirectional Encoder Representations from Transformers) zachycují lingvistické informace. Tento výzkum se zaměřil na malé jazykové modely, z nichž jeden měl 12 modulů a druhý 24 modulů. Autoři studie, výzkumníci z Googlu, se rozhodli kvantifikovat, kde v síti jsou uchovány různé lingvistické informace. Ukázalo se, že modely BERT spontánně vykonávají kroky tradičního jazykového zpracování, které se běžně učíme ve škole – rozpoznávání slovních druhů, analýza syntaktických struktur, rozpoznávání jmenovaných entit, identifikace sémantických rolí a konečně řešení anafory (odkazování na předchozí zmínky). Tento proces je označován jako "pipeline" – sekvence operací, které probíhají v určitém pořadí.
Zajímavým zjištěním bylo, že základní syntaktické informace jsou zpracovávány na nižších vrstvách modelu, zatímco složitější sémantické informace jsou distribuovány na vyšších vrstvách. Tato struktura odráží postup, jakým lidé zpracovávají jazyk – nejprve vnímají základní syntaktické vztahy, než se dostanou k hlubšímu porozumění významu a kontextu. Když tedy model analyzuje větu „kočka honí myš“, rozpoznává syntaktické role jako agent (kočka), predikát (honí) a pacient (myš). Pokud by se věta změnila na „černá kočka“, vznikla by syntaktická jednotka (constituent), což by opět reflektovalo to, co se učíme ve školách.
Takové chování modelu BERT ukazuje, že některé tradiční lingvistické koncepty se ve strojovém učení objevují spontánně, bez explicitního učení těchto pravidel. I když mnoho dalších vnitřních reprezentací BERTu zůstává pro nás nejasných, tento výzkum ukazuje na jasné vzorce v zpracování jazyka.
Pokud se podíváme na větší modely, jako je Megatron s 105 úrovněmi abstrakce, můžeme si představit, že složitější úrovně těchto modelů mohou být zodpovědné za stylistické schopnosti nebo porozumění světu, což je nezbytné pro predikci chybějících slov. S těmito modely je však těžší provést konkrétní analýzu jejich vnitřní struktury a vyhodnotit, jaké konkrétní znalosti se skrývají za těmito předpověďmi.
V roce 2024, společnost Anthropic podnikla kroky k pochopení těchto složitějších struktur u svého modelu Claude. Zjistili, že střední vrstvy modelu obsahují symboly reprezentující konkrétní entity, jako je například „Golden Gate Bridge“. Tyto symboly se aktivují, jakmile je daný pojem zmíněn, a to nezávisle na jazyce nebo podobě (i obrázky). Tento výzkum spadá do oblasti, která je označována jako „mechanistic interpretability“ – snaha o zlepšení porozumění vnitřnímu fungování modelů umělé inteligence.
Představme si hypotetický algoritmus, který sleduje auta projíždějící ulicí a na základě těchto údajů vytváří model predikce dopravních podmínek. Tento algoritmus, který začíná s velmi jednoduchým modelem a postupně přidává korekce a komplexnější pravidla (například víkendové změny v dopravních vzorcích), by se nakonec dostal k velmi sofistikovanému modelu světa. Tento proces postupného přidávání informací v rámci modelu je analogií k tomu, jak by transformer model mohl rozvíjet své porozumění světu, i když byl primárně navržen pro úkol predikce chybějících slov.
Co se tedy vlastně děje v modelu, jako je Transformer, který je vystaven obrovskému množství textu? Určitě vytváří model jazyka, ale je velmi pravděpodobné, že tento model zahrnuje také obecné pochopení světa, přinejmenším v těch aspektech, které jsou relevantní pro předpověď chybějících slov. Představme si, že chybějícím slovem by byla diagnóza v klinickém popisu, nebo jméno vraha na poslední stránce detektivky. K takovým předpovědím je nezbytné chápat kontext a situaci, nikoliv pouze jazyk.
Jazykové modely tedy nejen rozumí struktuře jazyka, ale mohou se také „naučit“ základní fakta o světě a o vztazích mezi různými pojmy. Toto porozumění není statické – modely jako BERT nebo GPT se mohou adaptovat a zlepšovat s časem. Jejich schopnost porozumět složitým jazykovým a světovým vzorcům je tak dalším krokem ve směru k dosažení sofistikovaného strojového učení, které může v budoucnu sloužit nejen pro analýzu textu, ale i pro rozpoznávání komplexních situací a předpovědi.
Jak modely světa ovlivňují rozhodování agentů a strojové učení
Agenti, kteří se pohybují ve světě, vytvářejí modely světa prostřednictvím svého pozorování. Tento proces je klíčovým prvkem nejen v oblasti umělé inteligence, ale také v našem každodenním vnímání okolní reality. Existují tři úrovně, které je třeba rozlišovat: agent, kterého vnímáme v reálném světě (například ChatGPT), interní model, který agent používá k rozhodování (například GPT-3), a algoritmus, který tento model vytváří z dat (například Transformer). Tato tři oddělená, ale propojená stádia určují schopnost agenta interagovat s okolním světem a správně odhadovat pravděpodobnost různých událostí.
Model světa je nástrojem, který nám umožňuje odhadovat, které situace jsou pravděpodobné a které jsou nepravděpodobné nebo dokonce nemožné. Například v modelu fyzikálního světa nečekáme, že objekty budou padat vzhůru nebo že stromy budou mluvit. Můžeme se spolehnout na statistiku a historická data k odhadu pravděpodobnosti opakujících se jevů, jako je déšť v listopadu. Avšak nelze tímto způsobem odhadnout pravděpodobnost událostí, které se nikdy předtím neudály – jedinečných událostí. Pokud by se například kniha nechala spadnout z Šikmé věže v Pise, nelze přesně odhadnout, jak se bude chovat, i když takový experiment nikdy neprobíhal. Model světa, který nám umožňuje interagovat s tímto světem a vypočítat pravděpodobnosti různých událostí, představuje formu porozumění světu.
Ve skutečnosti nemůžeme modelovat celý svět, ale pouze ty aspekty, které jsou pro nás relevantní. Veškeré znalosti, které agent má k dispozici, se nacházejí v jeho modelu světa. Tento model je nakonec pouze přiblížením světa, které je užitečné pro vykonání konkrétního úkolu. Chatboti jsou agenty, kteří interagují s prostředím pouze prostřednictvím jazyka – vnímají jazykové výrazy a provádějí jazykové akce. Místo modelu světa používají model jazyka, který určuje, které sekvence slov jsou pravděpodobné a smysluplné.
Průlomem posledních let bylo nalezení nového a silnějšího způsobu, jak vytvářet jazykové modely, které mohou inteligentní agenti využívat při interakci s větami, jež nikdy předtím neexistovaly. Díky těmto modelům mohou agenti předvídat chybějící části neúplné věty, i když je naprosto nová, a provádět mnoho dalších důležitých úkolů. Inteligence agenta je silně závislá na jeho schopnosti vytvářet modely světa, které mohou informovat jeho chování. Při této diskusi je třeba mít na paměti rozdíl mezi agentem, který působí ve světě, modelem světa, který používá, a algoritmem, který tento model vytváří. Tento rozdíl bude klíčový pro pochopení dalších částí této knihy.
Výzkumníci OpenAI, kteří objevili způsob, jak vytvořit obecný model jazyka pro další specializované nástroje, byli vedení kanadským vědcem Iljou Sutskeverem. Tento vědec, bývalý student pionýra neuronových sítí Geoffa Hintona, spolu s ním v roce 2012 vytvořil AlexNet, neuronovou síť trénovanou k rozpoznávání obrázků, která tehdy dosáhla rekordního výkonu a obnovila zájem o přístup strojového učení založený na neurálních sítích. K tomu přispěl rozsáhlý soubor milionů obrázků rozdělených do tisíců kategorií (nazvaný ImageNet, který vytvořila brilantní vědkyně Fei-Fei Li), stejně jako využívání paralelního procesoru GPU k urychlení trénování neuronových sítí.
Tato počáteční zkušenost s AlexNetem poskytla Sutskeverovi recept, který využil znovu v roce 2018 v oblasti modelování jazyka. Výzkumníci OpenAI v této studii popsali, jak učili inteligentní agenta vykonávat různé úkoly, aniž by museli začínat od nuly pokaždé. Trénink rozdělili do dvou fází: první fáze, kterou nazvali předtrénováním, vytvořila generický „jazykový model“ z velkého množství surového textu, a druhá fáze, nazývaná jemné doladění, se zaměřila na konkrétní úkoly, k jejichž provedení bylo použito pečlivě vybraných dat.
Novinkou byla první fáze – upravený Transformer, algoritmus schopný se učit z chyb a uhodnout chybějící slova v textu tím, že se podívá na jejich kontext. Tento model se trénoval na obrovském korpusu, který obsahoval tisíce knih, přičemž byla náhodně odstraňována slova, aby model mohl trénovat a zlepšovat své dovednosti v tomto „hádacím“ úkolu. Výsledkem byl statistický model, který byl schopen nejen vykonávat tuto úlohu lépe s praxí a většími daty, ale také vykonávat různé tradiční úkoly rychle a efektivně. V 9 z 12 testů model překonal existující metody, a v ostatních třech případech se umístil stejně dobře jako ostatní metody.
Tato schopnost přenosu lingvistických znalostí mezi úkoly, které běžně vyžadují nákladná data, byla revoluční. Model, který vznikl po předtrénování Transformeru generativně, dostal název Generative Pretrained Transformer, neboli GPT.
Přestože agenti, jako jsou chatboti, mohou využívat modely jazyka k odhadu pravděpodobnosti smysluplných vět, stále se ukazuje, že rozdíl mezi tím, jak se učí lidé a jak se učí stroje, je zásadní. Lidé jsou schopni přenášet znalosti mezi různými oblastmi rychleji a efektivněji, zatímco stroje potřebují miliony dat pro každý specifický úkol. Tento rozdíl mezi učením lidí a strojů byl dlouho nepochopený a měl zásadní vliv na vývoj umělé inteligence. Dokonce i po vytvoření těchto jazykových modelů je pro stroje stále těžké vykonávat úkoly, které jsou pro člověka přirozené, jako například schopnost přenášet vědomosti z jednoho kontextu do jiného. Tento vývoj, přestože je impozantní, naznačuje, že ještě máme dlouhou cestu před sebou v oblasti strojového učení a inteligence.
Jak Lobachevského metrika souvisí s Einsteinovými rovnicemi a gravitačními poli
Jak lze rozlišit skutečný posun po zemětřesení od artefaktů modelování?
Jak vytvořit sofistikované minidezerty, které spojují tradici s elegancí?
Jak pochopit komplikovanou síť intrik a nebezpečí v drsném prostředí Divokého západu?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский