Rychlý úspěch modelu ChatGPT způsobil, že Google přizval zpět své zakladatele, Larryho Page a Sergeje Brina, kteří se dříve stáhli z vedení společnosti. Strategie Googlu, jejímž cílem je být zprostředkovatelem mezi uživatelem a "všemi informacemi světa", tedy vyžadovala obrovské úsilí a rychlou reakci. V roce 2022, kdy byl ChatGPT spuštěn, přinesl novou technologii chatbotů, která hrozila přetvořit nebo dokonce nahradit tradiční vyhledávače. Jak napsal The New York Times, Google mohl čelit první vážné hrozbě pro své hlavní vyhledávací byznys.

Tato situace byla označena za klíčovou pro budoucnost Googlu, neboť většina velkých technologických firem již pracovala na velkých jazykových modelech, a to i ve svých výzkumných odděleních, která se zaměřovala na vědecké poznatky a publikovala na konferencích spolu s univerzitními výzkumnými skupinami. Avšak s uvedením ChatGPT se tato soutěž přesunula do oblasti produktů, podílu na trhu, akciových trhů a důvěryhodnosti těchto společností. Ztráta uživatelů nebo investorů by mohla mít pro společnosti zničující následky.

Jak tedy udržet náskok? Velké jazykové modely jako GPT ukázaly, že velikost je rozhodující. Jak velikost tréninkových dat, měřená v "tokenech" (což jsou slova nebo části slov), tak velikost samotného modelu, měřená v "parametrech" (numerické hodnoty, které řídí chování modelu a jsou "doladěny" pomocí tréninkových dat). Parametry modelu jsou částí, kterou lze upravit, a ve které je uloženo veškeré poznání vyextrahované z dat. Jejich počet určuje, jak složité to poznání může být. Pro lepší představu si můžeme představit obrovskou tabulku v Excelu plnou čísel. Čím větší model je, tím déle a dražší je výpočetní čas potřebný k jeho trénování. Naštěstí pro největší firmy měly k dispozici obrovské výpočetní kapacity a sbírky dat, což jim dávalo značnou výhodu.

Závod o vybudování nejvýkonnějšího jazykového modelu tedy začal. OpenAI otevřelo tento závod v roce 2020 s GPT-3, který měl 175 miliard parametrů a byl vyškolen na 300 miliardách tokenech. V roce 2022 reagoval Google modelem LaMDA, který měl 137 miliard parametrů a byl trénován na 168 miliardách tokenech. Meta, která vlastní Facebook, Instagram a WhatsApp, následovala s modely Llama a Llama2, oznámenými v letech 2022 a 2023, které měly 65 a 70 miliard parametrů, ale byly vyškoleny na 1,5 a 2 bilionech tokenech. Google pak znovu přistoupil k vydání dvou dalších modelů, PaLM, který nahradil LaMDA jako interní model Barda. První PaLM měl 540 miliard parametrů, trénovaných na 768 miliardách tokenech, a druhý model pravděpodobně překonal 1 bilion parametrů, přičemž byl vyškolen na 3,6 bilionech tokenech. OpenAI následovalo s GPT-4, jehož velikost nebyla zveřejněna, což vedlo k různým spekulacím, včetně domněnek, že překonal 1 bilion parametrů, což se stalo klíčovým psychologickým bodem v celém závodě.

Zatímco společnosti jako NVIDIA a Microsoft představily Megatron-Turing NLG s 538 miliardami parametrů, trénovaným na 338 miliardách tokenech, spekulovalo se, že GPT-4 je založen na kombinaci osmi modelů podobných GPT-3, každý s 220 miliardami parametrů, což by dalo dohromady 1,7 bilionu parametrů. Tyto skutečnosti, pokud budou potvrzeny, by znamenaly, že hranice 1 bilionu byla překonána. Podobně v prosinci 2023 Google DeepMind představil model Gemini, nástupce PaLM2, jehož parametry zůstaly utajeny, ale média uvedla, že číslo pravděpodobně přesahuje 1 bilion.

Důležité je pochopit, že kvalita tréninkových dokumentů je stejně důležitá jako jejich množství. To znamená, že omezujícími faktory jsou nejen výpočetní kapacity, ale i kvalita a relevance dat. K tomu, aby modely opravdu dosahovaly kvalitních výsledků, musí být trénovány na datech, která jsou aktuální, relevantní a pečlivě zpracovaná. Velikost modelu však není jediným faktorem. Efektivní algoritmy a dostupnost potřebného hardware (zejména grafických procesorů, které jsou nezbytné pro trénink těchto modelů) se stávají stejně důležitými hráči v tomto závodě.

Dnes je zřejmé, že závod o nejvýkonnější modely nebude jen o množství dat a parametrů, ale také o schopnosti využít hardware a algoritmy, které umožní efektivní učení. Tato situace se stává nejen výzvou pro firmy, ale i pro celou vědeckou komunitu. Jak rychle se technologie vyvíjí, je těžké předpovědět, kam až tento závod může zajít, ale jedno je jisté: klíčovou roli bude hrát schopnost zvládnout rostoucí nároky na výpočetní kapacity a optimalizovat procesy, které zajišťují vysokou kvalitu výsledků.

Jak modely umělé inteligence objevují nové schopnosti a jak mohou ovlivnit naši budoucnost?

Jazykové modely, jako je GPT, mají schopnost spontánně objevovat a vykazovat chování, které nebylo předem naprogramováno. Tato schopnost vychází z principu, kdy modely jsou trénovány k plnění určitého úkolu, avšak v průběhu učení se objevují nové dovednosti, jež nejsou přímo zaměřeny na původní cíl. Tento jev, známý jako "emergence", naznačuje, že systém na základě velikosti a složitosti může začít vykazovat dovednosti, které jsou daleko za rámcem toho, co bylo původně zamýšleno.

V předchozích kapitolách jsme viděli, jak jazykové modely, při trénování na textových úlohách, spontánně objevují schopnosti, které jim umožňují nejen chápat jazyk na úrovni slov, ale také vykonávat úkoly, které vyžadují složitější kognitivní procesy. Například modely dokážou chápat souvislosti mezi slovy, zpracovávat významy a generovat věty, které odpovídají danému kontextu. Představte si, že jazykový model dokáže kombinovat základní pojmy jako "kočka" a "černá" a vytvořit tak interní reprezentaci pro frázi "černá kočka", což je mechanismus, který se opírá o kombinování základních idejí do složitějších konceptů.

Pokud bychom se podívali na čísla, zjistíme, že modely jako GPT-3, které pracují s obrovským množstvím dat, mají své vnitřní reprezentace v prostoru o 12 288 dimenzích. Každé slovo je bod v tomto prostoru, a slova s podobnými významy se nacházejí blízko sebe. Tento prostor je však mnohem větší a umožňuje reprezentaci i abstraktnějších konceptů, například kombinací slov a jejich vztahů. Takové modely tedy nepracují pouze s daty a informacemi, ale s idejemi a vztahy mezi těmito idejemi, což nám otevírá možnosti pro tvorbu nových způsobů reprezentace světa.

Když se zamyslíme nad tím, co všechno může takový model "naučit" během svého trénování, zjistíme, že se jedná o více než pouhou reprodukci známých faktů. Modely jsou schopné analyzovat texty, kombinovat ideje a na základě toho predikovat chybějící slova v textu. Tento proces, i když je založen na matematických algoritmech, umožňuje modelům vykonávat úkoly, které by normálně vyžadovaly vysokou úroveň kognitivní dovednosti, jako je porozumění zákonitostem gramatiky nebo základním principům vědeckých oborů.

Ve studii z roku 2020, která se zabývala hodnocením schopností jazykových modelů pomocí rozsáhlého testu MMLU (Massive Multitask Language Understanding), byla provedena série testů, které pokrývaly různé oblasti – od humanitních věd po přírodní vědy. Bylo zjištěno, že větší modely, jako GPT-3, dosahovaly významně lepších výsledků než menší modely, což ukazuje, jak velikost modelu ovlivňuje jeho schopnosti. Model s 13 miliardami parametrů byl schopný správně odpovědět pouze na 25 % otázek, což odpovídá náhodnému tipování, zatímco model s 175 miliardami parametrů dosahoval přesnosti 43,9 %. Tento skok v přesnosti naznačuje, že s rostoucí velikostí modelu vznikají nové schopnosti, které umožňují modelu chápat a správně reagovat na složité otázky.

Co je na tomto procesu nejzajímavější, je fakt, že nové schopnosti nevyžadují explicitní učení ve formě pravidel nebo pokynů. Schopnost rozumět základům matematiky, fyziky nebo dokonce práva může spontánně vzniknout během trénování modelu, když se tento model učí predikovat chybějící slova v textu. Tento jev je známý jako emergentní chování a stále se zkoumá, jak se tento proces vyvíjí v závislosti na velikosti modelu. Pokud model roste, mohou se objevit nové schopnosti, které byly dříve nepředstavitelné.

Tato schopnost modelů k samostatnému objevování nových schopností však vyvolává důležitou otázku: jak zajistit, že modely se naučí pouze ty dovednosti, které jsou pro nás užitečné, a nezískají dovednosti, které by mohly být nebezpečné? Tato otázka se stává čím dál tím důležitější, jak se jazykové modely stávají stále komplexnějšími a schopnějšími.

Co se týče velikosti modelů, výzkumy ukazují, že určité schopnosti, jako je aritmetika, se začnou objevovat až u modelů s parametry přesahujícími určitou hranici. Například podle studie BigBench z roku 2023 se aritmetické dovednosti objevují až u modelů s více než 10^11 parametry. Tento objev naznačuje, že existují určitá "práh", po jehož překročení mohou modely začít vykazovat nové a komplexnější schopnosti.

Je tedy nezbytné zamyslet se nad tím, jakým směrem se budou tyto modely vyvíjet a jaké schopnosti mohou zůstat neodhaleny až do momentu, kdy budou modely ještě větší a sofistikovanější. Emergentní vlastnosti jazykových modelů nám ukazují, že s rostoucími modely nemusí pouze zvyšovat výkon v předem definovaných úkolech, ale mohou se objevit zcela nové schopnosti, které mohou zásadně změnit náš pohled na umělou inteligenci a její roli ve společnosti.