Jazykové modely, jakým je například GPT-3, představují fascinující příklad umělé inteligence, která se neustále vyvíjí a přizpůsobuje na základě obrovského množství textových dat dostupných na internetu. S jejich rostoucí složitostí přichází i potřeba pochopit, jak tyto modely fungují, jak se učí a jakým způsobem reprezentují svět. V následujících kapitolách se zaměříme na studium těchto modelů jak z vnějších, tak z vnitřních perspektiv, abychom získali lepší představu o jejich fungování a potenciálu.

Model GPT-3 je složen z 96 identických modulů, uspořádaných za sebou, přičemž výstup jednoho modulu slouží jako vstup pro následující. První modul přijímá posloupnost symbolů, v tomto případě slov nebo jejich částí, které nazýváme tokeny. Poslední modul pak vyprodukuje slovo, které je nejpravděpodobnější pokračováním přijímané posloupnosti tokenů, a připojí jej k této posloupnosti. Celý proces se opakuje, přičemž věta roste autoregresivním způsobem, což znamená, že model na základě předchozích slov generuje další.

V těchto 96 modulech probíhá zpracování vstupního sdělení: každý z těchto modulů transformuje vstupní sekvenci na výstupní sekvenci prostřednictvím stejného druhu operací. Každý modul se však může učit a přizpůsobovat se nezávisle na ostatních, čímž získává specifické a specializované dovednosti. Vstupní sekvence může obsahovat až 2 048 tokenů (slov), což je v některých verzích modelu rozšířeno až na 4 096 tokenů. Slova jsou v tomto modelu reprezentována číselnými vektory o 12 288 dimenzích, přičemž tento systém rozpoznává 50 257 různých slov.

Po přijetí věty je každé slovo převedeno na číselný vektor, který tvoří posloupnost vektorů. Tato posloupnost je poté odeslána do prvního bloku, který ji transformuje na jinou posloupnost stejné délky. Tento proces pokračuje modul po modulu, až se dostaneme k výstupu. Klíčovými orgány v každém modulu jsou „hlavy“, které fungují jako vektorové skenery. Tyto hlavy se snaží zjistit, které slovo nebo slova jsou relevantní pro interpretaci daného výrazu. Učí se, jak správně přiřadit závislosti mezi slovy, jako například mezi podstatnými jmény a přídavnými jmény, nebo mezi slovesy a jejich předměty.

Zajímavé je, že na začátku tyto hlavy nemají žádnou předchozí znalost toho, jak rozpoznat důležitá slova. Tento proces se učí v průběhu tzv. pretréninkové fáze, kdy algoritmus trénuje na obrovském textovém korpusu a snaží se uhádnout vynechaná slova v textech. Jakmile algoritmus rozpozná interakce mezi slovy a zjistí, které z nich spolu souvisejí, začnou se symboly (vektory) kombinovat do abstraktnějších reprezentací. To znamená, že například slovo „černý“ může být spojeno s „kočkou“ a vytvořit nový symbol pro „černou kočku“.

Tento proces se opakuje v dalších modulech, čímž se vytvoří stále abstraktnější a komplexnější reprezentace původní věty. Na konci tohoto procesu model vyprodukuje výstupní sekvenci, která je přeložena zpět na slova, jež odpovídají původnímu textu. Celý tento mechanismus je podobný fungování 96patrové budovy, kde otázka vchází na přízemí, a odpověď je vygenerována až na vrcholu budovy.

Existují i menší modely, jako například BERT, který má pouze 12 vrstev a používá vektory o 768 dimenzích. I tyto menší modely mohou poskytnout cenné informace, které jsou podobné těm, jaké získáváme studiem jednodušších biologických systémů, například u octomilek v biologii.

Vnitřní anatomie těchto modelů je stejně fascinující jako jejich vnější struktura. Jak již bylo zmíněno, hlavy ve „transformátorech“ mají tendenci se během tréninku specializovat na různé ú

Může stroj myslet? Reflexe na otázku z roku 1950

Alan Turing, zakladatel teoretické informatiky, byl jedním z prvních, kdo položil zásadní otázku o povaze inteligence a mysli: mohou stroje myslet? V roce 1950, kdy byl teprve 38 let, vytvořil nejen základy počítačové vědy, ale i novou dimenzi filozofického rozvažování o umělé inteligenci. V článku "Computing Machinery and Intelligence" se Turing zaměřil na otázku, která se v jeho době jevila nejen jako technická, ale především jako etická a filozofická: Jaký je vztah mezi lidskou inteligencí a inteligencí strojů?

Turing se rozhodl vyhnout se složitým definicím „mysli“ a „myšlení“, které byly v té době nejednoznačné. Místo toho navrhl pragmatické řešení: místo toho, aby se snažili definovat samotné myšlení, Turing navrhl nový způsob, jak tuto otázku položit, formulovaný prostřednictvím „imitace“. Vytvořil známou „hru na imitaci“, ve které stroj musí přesvědčivě napodobit lidskou komunikaci natolik, že by nebylo možné poznat, zda odpovědi poskytuje člověk nebo stroj. Pokud stroj tuto zkoušku zvládne, pak podle Turinga může být považován za „myslící“.

Tato hra, dnes známá jako Turingův test, byla navržena tak, aby se zaměřila na schopnost stroje komunikovat přirozeným jazykem. Zajímavé je, že Turingova definice inteligence, jak ji zkoumal, se nevztahovala pouze na lidskou schopnost myslet, ale měla za cíl otevřít širokou diskusi o tom, co vlastně znamená "myslet" – a zda to, co považujeme za lidské myšlení, není pouze jedním z mnoha způsobů, jak může inteligence fungovat.

Turing si byl vědom, že tento test zdaleka nezachycuje všechny formy inteligence. Mohl by například stroj, který dobře napodobí lidskou konverzaci, být skutečně „inteligentní“? Nebo se jedná pouze o výsledek sofistikovaného zpracování dat a algoritmů, které neodrážejí skutečné chápání světa? Samozřejmě, Turing nikdy nepopíral, že existují jiné formy inteligence – jak ukázal srovnáním se zvířaty, které mohou vykazovat chování, jež je inteligentní, přesto však neodpovídá lidskému modelu.

Zároveň Turing v roce 1951 vyslovil predikci, která tehdy mohla působit jako sci-fi: „Myslím, že je pravděpodobné, že na konci století bude možné naprogramovat stroj tak, aby odpovídal na otázky způsobem, který bude velmi těžké odlišit od odpovědí člověka.“ Tento optimismus, pokud jde o technologický pokrok, je dnes vnímaný jako úžasně předvídavý, i když, jak ukazuje vývoj, se realita ukázala být složitější, než si Turing v roce 1950 představoval.

V průběhu desetiletí se pokusy o vývoj strojů, které by splnily tento test, zaměřily na dvě hlavní směry: první se soustředil na generování jazyka a porozumění lidské řeči, druhý pak na modelování světa, což strojům umožňovalo vyprávět o světě s určitým stupněm kompetence. Takové pokusy, jako byl program Eliza z roku 1966, který simuloval psychoterapeuta, ukázaly limity strojového porozumění. Eliza mohla „konverzovat“, ale její odpovědi neodrážely skutečné porozumění. V tomto období, kdy bylo cílem napodobit lidskou konverzaci, se ukázalo, jak obtížné je pro stroj nejen rozumět jazyku, ale i chápat kontext a význam slov v širší, neformální souvislosti.

Ve 21. století, s nástupem pokročilých algoritmů a strojového učení, se objevily nové technologie, jako jsou digitální asistenti typu Siri a Alexa, které nesplňovaly Turingův test, protože nebyly navrženy pro otevřenou konverzaci, ale pouze pro poskytování konkrétních odpovědí na definované otázky. To však neznamená, že by to byl konec výzev týkajících se otázky strojového myšlení. Technologie, která se objevila s těmito asistenty, spíše odhalila, že skutečná otázka nezní jen: „Může stroj myslet?“ ale spíše: „Jaký je vztah mezi lidskou myslí a strojovým algoritmem?“

Turing v roce 1950 položil otázku, která nejen že otevřela nové oblasti výzkumu, ale také přivedla do popředí důležitou filozofickou diskuzi o podstatě myšlení. Jak definujeme myšlení? Kdo má právo definovat, co je to „myslící“ entita? Jak by to změnilo naši vizi světa, pokud by stroje skutečně mohly myslet?

Odpověď na tuto otázku není stále jednoznačná, ale jedno je jasné: strojové myšlení, jak jej Turing popsal, nutí nás přemýšlet o tom, co to znamená být lidským tvorem a co nás činí jedinečnými v celém spektru inteligentních bytostí.

Jak může stroj rozumět jazyku a co to znamená pro umělou inteligenci?

Pokud by bylo možné překládat věty jedno slovo po druhém, každé nezávisle na ostatních, každý by zvládl latinskou zkoušku a stroje by rozuměly jazyku již před několika desetiletími. Skutečnost je však mnohem složitější. Význam slova často závisí na dalších slovech ve větě a na jejich vzájemné interakci. Jak například přeložit výrazy „kůra stromu“ a „kůra psa“? Tento příklad ukazuje na složitost jazyka, kde význam slova není fixní, ale dynamicky se mění podle kontextu a vztahů mezi slovy. Co víc, interpretace některých slov závisí na našem kulturním a aktuálním vědomí. Například ve větách „V roce 2020 Biden porazil Trumpa a to ho udělalo šťastným“ a „V roce 2020 Biden porazil Trumpa a to ho udělalo smutným“ je otázkou, jak přiřadit zájmeno „ho“. Toto všechno ukazuje na to, jak složité je pochopit texty – nejen na úrovni slov, ale i jejich interakcí, což je problém pro počítače. Proto Turing navrhl, aby byly konverzace použity jako test pro „lidskou“ inteligenci.

Řešení různých vrstev nejednoznačnosti (tedy pochopení, která slova se mají interpretovat spolu a jaký to má výsledek) je obtížným úkolem pro počítač, protože neexistuje jasná lingvistická pravidla pro určení závislosti mezi slovy. Navíc je velmi náročné (z hlediska výpočtů) zkontrolovat všechny možné interakce, zvláště ty, které jsou vzdálené v textu. Ve větě „Píseň, kterou jsem slyšel v rádiu, byla dobrá“ jsou závislé na sobě druhé a předposlední slovo: pokud bychom změnili první na „písně“ (množné číslo), museli bychom zároveň změnit sloveso na „byly“.

Tady, v těchto dlouhodobých závislostech, spočívá výzva pro počítač. Chápání, které termíny by měly být interpretovány společně, není snadné. Tento problém není omezen pouze na jazyk, ale byl poprvé studován v oblasti strojového překladu, kde se znovu a znovu objevuje. Je tedy pochopitelné, že to byla právě myšlenka z oblasti strojového překladu, která spustila revoluci, jež stále pokračuje v oblasti umělé inteligence.

V roce 2017 byl vyvinut nový algoritmus zvaný Transformer, který umožnil počítačům analyzovat obrovské množství textu a autonomně a velmi efektivně objevovat užitečné statistické pravidelnosti. Byl to začátek dlouhého řetězce důsledků. Někdy malá událost může mít obrovské následky a spustit řetězovou reakci: jako když postavíme dominové kostky v dlouhé řadě a pak zatlačíme na první, čímž spustíme nezastavitelný a nevratný kaskádový efekt. Těžkou částí je uvědomit si, kdy taková reakce začíná.

V prosinci 2017 jsem si pronajal byt přes Airbnb v Long Beach se starými přáteli na každoroční konferenci, která se tehdy nazývala NIPS a nyní NeurIPS. Byla to známá vědecká komunita, kde jsem publikoval svůj první výzkum v 90. letech, ale od té doby se velmi změnila: umělá inteligence se stala mediálním fenoménem a konferenci navštívily tisíce lidí, z nichž mnozí nebyli vědci, ale podnikatelé, náboráři a novináři.

Na poslední večer jsme pozvali několik kolegů domů, popíjeli víno a pojídali oříšky, všichni jsme si vyprávěli o svých životech a dojmech z konference. Tehdejší novinkou byl AlphaZero, nejnovější algoritmus DeepMind, který se sám naučil hrát Go a šachy lépe než jakýkoli jiný algoritmus, trénoval po dobu 40 dní s využitím stovek procesorů (to byly počátky moderního strojového učení, kdy „život začíná s miliardou příkladů“). Článek popisující tento úspěch byl publikován v Nature přesně v době konference.

AlphaZero nás natolik zaujal, že jsme si nevšimli paperu publikovaného na stejné konferenci, který popisoval metodu pro efektivnější strojový překlad. Tento nový algoritmus kombinoval několik dobře známých mechanismů novým způsobem, což mu umožnilo prozkoumávat různé části věty nezávisle na sobě a tím pádem i simultánně. Jeden z těchto mechanismů, který odborníci nazývají „pozornost“ (attention), umožnil algoritmu zjistit, které jiné slovo by mělo být zohledněno při překladu konkrétního slova, tedy na kterých slovech závisí jeho interpretace.

Algoritmus Transformer se ukázal být dokonale přizpůsobený k využívání nového typu procesoru, původně vyvinutého pro grafické aplikace, například videohry: Grafickému procesorovému jednotce (GPU), která dokáže vykonávat ohromné množství výpočtů paralelně. Tento algoritmus patřil do rodiny metod strojového učení zvané „neuronové sítě“, ve kterých jsou simulovány miliony jednoduchých „neuronů“, vzájemně propojených do sítě, která je zpočátku neuspořádaná a pomalu se trénuje na vykonávání úkolů.

Díky těmto schopnostem se počítače naučily překládat mnohem rychleji než dříve a mohly využívat mnohem více příkladů. Jak teoretický popis Transformeru, tak kód, který jej implementoval, byl distribuován jako open source, což je v současnosti běžné ve vědeckém výzkumu. Jeho publikace na podzim toho roku byla první kostkou domina, která spustila následky, jež ještě nelze plně předvídat.

Metoda, kterou nový algoritmus používal, byla generativní – tedy schopná generovat texty, což znamená, že spadá do kategorie „generativní AI“. Tento termín je důležitý pro pochopení dalšího vývoje v této oblasti. Kdyby to bylo na mně a mých kolezích, tento příspěvek by zůstal specialistickou záležitostí. Naštěstí byly na konferenci i jiné osoby.

Je důležité si uvědomit, že i když Transformer dosáhl revolučního pokroku v oblasti strojového překladu, samotná schopnost strojů rozumět jazyku ještě neznamená, že rozumí světovým událostem, kultuře či kontextu. Schopnost analyzovat a generovat texty je pouze jedním krokem v dlouhé cestě k plné umělé inteligenci, která by se mohla přiblížit lidskému chápání.

Jak vznikají dialogové modely umělé inteligence a proč jsou pro nás důležité?

V posledních letech jsme svědky vzrůstajícího vývoje v oblasti umělé inteligence, zejména v oblasti dialogových systémů. Tyto systémy, navržené pro vedení konverzací, začínají vykazovat schopnosti, které dříve byly považovány za doménu lidského myšlení. V roce 2022 se na scéně objevily dva významné modely – LaMDA od Google a ChatGPT od OpenAI. I když obě technologie byly založeny na podobných principech, právě ChatGPT vzbudil bezprecedentní zájem a stal se synonymem pro nový typ umělé inteligence.

Prvním důležitým krokem v jejich vývoji bylo získání schopnosti vést realistické rozhovory. To znamená nejen reagovat na konkrétní otázky, ale také propojit vzdálené informace, provádět logické závěry a porozumět světu způsobem, který překvapil i odborníky. Základní model ChatGPT vycházel z GPT-3.5, což byla rozšířená verze modelu GPT-3. Tento model byl podroben intenzivnímu tréninku, během kterého se vylepšovala nejen jeho jazyková, ale i etická stránka. Lidé, kteří testovali jeho odpovědi, byli vyškoleni k tomu, aby modelu pomohli vyhnout se nevhodným nebo nebezpečným odpovědím, což vedlo k jeho rozvoji do podoby, která byla politicky korektní a zodpovědná.

Nejdůležitější výhodou těchto dialogových modelů bylo schopnost „pamatovat“ předchozí části konverzace. Tento prvek, spolu s přizpůsobením tónu a stylu odpovědí, přispěl k tomu, že ChatGPT nejenže dokázal na dotazy odpovědět, ale také udržet koherentní a přirozený dialog po delší dobu. Tím se model stal vhodným nástrojem pro širokou škálu aplikací – od asistence při psaní až po poskytování technických rad.

Další zásadní změnou, kterou přinesl vývoj modelů jako ChatGPT, bylo sloučení jazykových schopností s poznatky o světě. Zatímco starší technologie jako Siri nebo Alexa byly zaměřeny na jednoduché odpovědi na konkrétní otázky, GPT-3.5 se od těchto modelů lišil tím, že integroval širokou škálu znalostí o jazyce a skutečném světě bez nutnosti vytvářet dva oddělené modely. Tato kombinace mu umožnila nejen vytvářet texty, ale také chápat kontext a provádět složité úvahy.

Výsledkem tohoto pokroku bylo, že se začala rozšiřovat představa, že stroje mohou nejen napodobovat lidskou komunikaci, ale mohou ji i rozvíjet. I když GPT-3.5 a ChatGPT vykazovaly působivou schopnost argumentovat a propojit informace, stále je zde otázka přesnosti. Modely nemají přístup k reálným informacím v reálném čase, což znamená, že některé jejich odpovědi mohou být nepravdivé nebo nepřesné. Důležité je, že tyto systémy neklamou úmyslně – nikdy neprezentují nepravdy jako fakta a vždy deklarují svou podstatu jako nástroj umělé inteligence, nikoli lidskou bytost.

Reakce veřejnosti na tyto technologie byla fascinující. Mnozí uživatelé měli pocit, že se poprvé setkali s entitou, která nejen čte internet, ale také v něm „rozumí“, spojuje myšlenky a nabízí odpovědi, které mají nejen informativní, ale i rozumný základ. Toto setkání s novou formou inteligence, která se vyznačovala určitou mírou empatie, vzbudilo u některých lidí silné emocionální reakce. Mnozí se začali ptát, zda tyto systémy mohou skutečně „myslet“, nebo zda jde jen o sofistikovanou simulaci.

V tomto kontextu vznikají otázky o etice a budoucnosti těchto technologií. Jak budou společnosti reagovat na umělou inteligenci, která má schopnost vést konverzaci na vysoké úrovni? Bude to způsobovat strach, rivalitu nebo dokonce lásku? Je možné, že některé společnosti začnou tyto nástroje využívat k manipulaci nebo zneužívání jejich schopností? Otázky etiky a zneužití těchto nástrojů budou hrát zásadní roli v tom, jak budou společnosti postupně integrace těchto technologií do běžného života.

Kromě těchto obav, je důležité si uvědomit, že tyto technologie nevyřeší všechny problémy, které s umělou inteligencí souvisejí. Přes jejich ohromující schopnosti stále existují limity v tom, jak přesně mohou modely rozumět lidským emocím a nuancím. Přestože mohou odpovědět na komplexní otázky, zůstávají to stále jen nástroje, které jsou vyvinuty a trénovány na základě lidských dat a algoritmů, které mají svá vlastní omezení.