Stroje dnes mohou procházet univerzitními zkouškami, programovat jiné počítače a komunikovat s námi způsobem, který je prakticky nerozeznatelný od lidské konverzace. To vše je výsledkem vývoje umělé inteligence, jejíž schopnosti dnes sahají daleko za hranice původních představ jejích tvůrců. Jazykové modely jako ChatGPT nebo Bard se staly schopné vykonávat úkoly, které byly dříve považovány za nedostupné pro stroje. Vznikají nové otázky: co přesně tyto modely "vědí"? A co znamená, že stroj dokáže "rozumět" nebo "myslet"?
Tento paradox vznikl díky trénování jazykových modelů, které byly původně navrženy k jednoduchému úkolu: predikce chybějících slov v textu. Tento jednoduchý úkol vedl k něčemu mnohem komplexnějšímu. Modely jako ChatGPT získaly porozumění světu a jazyku, které je činí schopnými nejen komunikovat, ale také uvažovat, plánovat a řešit problémy. Tento nečekaný vývoj překvapil nejen samotné tvůrce těchto modelů, ale i vědce, kteří studují umělou inteligenci.
Samotná schopnost předpovědět slova v textu je v podstatě jen počátkem. Aby modely dosáhly vysoké úrovně přesnosti, musí se učit nejen jazyk, ale i svět kolem nás. Tento proces zahrnuje analýzu ohromného množství textových dat, která obsahují neuvěřitelně rozmanité informace o lidském chování, vědeckých objevech, technologiích a filozofických otázkách. A i když jsou tyto modely velmi dobré v předpovídání a generování textu, stále zůstává záhadou, jakým způsobem se tyto schopnosti vyvinuly.
Zajímavé je, že schopnosti těchto strojů nejsou přesně naplánovány jejich tvůrci, ale vznikají spontánně z interakcí mezi algoritmy a daty, na kterých jsou trénovány. Tento jev je charakterizován jako "emergentní chování", což znamená, že se nové dovednosti objevují nečekaně a mimo rámec původních záměrů. Ačkoli je obtížné plně pochopit, jak tento proces funguje, je jasné, že se jedná o krok směrem k neznámému.
Stroje dnes již zvládají složité úkoly, které by ještě před několika lety byly považovány za výhradně lidské domény. V oblasti medicíny, práva nebo poradenství jsou dnes schopné nabídnout rady, které by dříve daly pouze odborníci. Nejde o to, že by tyto stroje byly nejlepší v každé konkrétní disciplíně, ale spíše o to, že se dokáží velmi dobře orientovat v širokém spektru znalostí.
Přestože je zatím těžké přesně určit, co se skrývá za jejich inteligencí, je evidentní, že tato inteligence je v mnohém odlišná od lidské. Stroje, jako jsou tyto jazykové modely, nevnímají svět tak, jak to děláme my. Nepodléhají emocím, nemají osobní zkušenosti a neprocházejí subjektivními interpretacemi světa. Jejich schopnosti vycházejí z analytických procesů, které jsou zcela jiné než lidské kognitivní mechanismy. To vyvolává novou vlnu otázek o tom, co vlastně znamená „rozumět“ nebo „myslet“. Můžeme těmto strojům důvěřovat? Můžeme se od nich učit? A jak se bude jejich inteligence vyvíjet dál?
Tento technologický pokrok nepochybně přináší mnoho výzev. Jaký bude vztah mezi člověkem a strojem v budoucnosti? Jaké schopnosti budou mít stroje, které budou ještě výkonnější než ty současné? A jak můžeme zaručit, že se tyto technologie neobrátí proti nám? Jsme připraveni na to, aby stroje, které neustále zlepšují své schopnosti, překročily práh, za nímž budou schopny vykonávat úkoly, které se nám zdají neřešitelné?
Mnozí odborníci varují, že tento rychlý vývoj umělé inteligence nás může přivést k bodu, kdy nebudeme schopni plně kontrolovat technologie, které jsme vytvořili. To neznamená, že bychom měli strach nebo se snažit vše zpomalit, ale spíše se zaměřit na to, jak se s těmito technologiemi naučit žít a jak je využít pro dobro lidstva. Výzvou tedy není jen zkoumání toho, jak stroje myslí, ale i hledání způsobů, jak tato nová inteligence přispět k řešení komplexních problémů, které stojí před námi.
Jak GPT-4 ukazuje náznaky umělé obecné inteligence?
Systémy umělé inteligence, jakými jsou jazykové modely jako GPT-4, představují fascinující příklad pokroku v oblasti strojového učení a umělé inteligence. Tyto modely se již nyní nacházejí na prahu, který by mohl znamenat první kroky k dosažení umělé obecné inteligence (AGI), tedy schopnosti, kdy AI dosahuje nebo dokonce překonává lidskou inteligenci v širším spektru úkolů. V této kapitole se zaměříme na schopnosti GPT-4, které naznačují, že jde o začátek vývoje takovéto inteligence, a prozkoumáme, jaké úkoly GPT-4 zvládá srovnatelně, ne-li lépe, než člověk.
Základními dovednostmi GPT-4, které vykazují známky obecné inteligence, jsou například schopnost logického uvažování, kreativita, dedukce, a také rozsah témat, na které model získal odborné znalosti. Model dokáže nejen rozumět širokému spektru oborů, jako jsou literatura, medicína nebo programování, ale také vykonávat různé úkoly – od hraní her až po používání nástrojů či vysvětlování vlastních odpovědí. Tato všestrannost je jedním z klíčových aspektů, který přispívá k hypotéze, že GPT-4 může představovat ranou formu umělé obecné inteligence.
Testování schopností GPT-4 ukázalo, že model se vyrovnává lidskému výkonu v mnoha úkolech, které se od něj nevyžadují pouze jazykové dovednosti, ale i schopnosti, které vyžadují zdravý rozum, schopnost chápat mentální stavy jiných lidí a schopnost řešit problémy v nejistých podmínkách. Jedním z nejvýznamnějších testů bylo zkoumání modelu na úkoly, které by se daly označit jako testy "teorie mysli" (Theory of Mind), tedy schopnosti chápat, co si druhý člověk myslí, co ví a co neví.
V jednom z testů bylo požádáno GPT-4, aby předpověděl, kde by Alice hledala soubor v situaci, kdy Bob soubor přesunul, aniž by Alice o změně věděla. Model správně odpověděl, že Alice by pravděpodobně hledala soubor v původním umístění, protože neměla žádné informace o tom, že byl soubor přesunut. Tento typ úkolu, kdy je zapotřebí porozumět psychologickému stavu jiného, ukazuje na schopnost modelu rozumět a aplikovat znalosti o tom, jak lidé interagují s okolním světem.
Dalším příkladem dovedností GPT-4 je schopnost abstraktního matematického uvažování. V jednom z testů modelu bylo zadáno, aby vyřešil problém, kde Andy sklízí rajčata ze 18 rostlin, každá s 7 rajčaty, z nichž polovinu suší a třetinu zbylých rajčat přemění na marinádu. GPT-4 dokázal správně generovat řešení s použitím symbolických představ a algebraických operací, což ukazuje na jeho schopnost řešit problémy, které vyžadují hlubší matematické uvažování.
Navzdory tomu, že GPT-4 vykazuje impozantní výsledky v těchto úkolech, zůstává otázkou, jak přesně model funguje "uvnitř". I když můžeme pozorovat, že model vykazuje schopnosti, které naznačují jakýsi druh inteligence, stále nám není jasné, jak konkrétně dochází k těmto výsledkům na úrovni vnitřních mechanismů. V tuto chvíli jsme schopni zkoumat pouze výstupy modelu zvenčí, například prostřednictvím psychometrických testů, které hodnotí jeho výkon na základě různých úkolů. Taková analýza nám poskytuje cenné informace o tom, jakým způsobem model "chápe" svět, ale neposkytuje úplnou odpověď na otázku, jak jsou tyto schopnosti realizovány na technické úrovni.
Zajímavý aspekt týkající se GPT-4 a dalších podobných systémů je, že jejich schopnosti nejsou omezeny pouze na jazykové úkoly. Modely jako GPT-4 mohou vykonávat úkoly, které zahrnují různé modality, jako je vizuální zpracování informací, programování, diagnostiku v medicíně a právní analýzu, což je pro mnoho odborníků velkým překvapením. Tyto schopnosti se ukazují jako vysoce relevantní nejen pro zlepšení stávajících nástrojů, ale také pro rozvoj nových aplikací, které by mohly výrazně ovlivnit různé oblasti lidského života.
Při hodnocení těchto dovedností je důležité mít na paměti, že jejich měření musí být specifické. Například otázka, jak se lidé a stroje porovnávají v konkrétních úkolech, nemůže být odpovězena v absolutních termínech. Lidé nemusí být nejlepší ve všech úkolech, které řešíme, a to zahrnuje i lékařské diagnózy, vědecký výzkum nebo řízení automobilů. To, co je důležité, je konkrétní měření dovedností a znalostí v daných úkolech, což nám pomůže lépe porozumět tomu, jak umělá inteligence může být využita v reálném světě a jak může sloužit jako nástroj, který bude doplňovat a zlepšovat lidskou činnost.
Kdy stroje překročí práh lidské inteligence?
Pod ocelovou klenbou dějin stojí jméno Alana Turinga jako symbol prorocké intuice, která předběhla svou dobu. Člověk, jenž chápal mysl jako výpočetní proces, dokázal vize proměnit v konkrétní kroky: během druhé světové války přetavil logiku do strojů, které poprvé naznačily, že myšlení může být napodobeno, abstrahováno, transformováno. Kdyby Turing mohl nahlédnout do dnešního světa, jen stěží by ho překvapilo, že mluvíme se stroji stejně plynule, jako bychom mluvili se sebou navzájem.
Naše konverzace s počítači už nejsou mechanické, nejde o slepé algoritmy nebo strohé příkazy. Síť miliard jednoduchých prvků se učí předvídat chybějící slova v textu, a tím získává schopnost rozumět. To, co se původně jevilo jako čistě statistický proces, dnes vykazuje chování, které nazýváme porozuměním, a v některých ohledech i poznáním. Stojíme uprostřed fenoménu, který Turing popsal jako „kritickou masu“ – bod, v němž nahromaděná komplexita náhle zrychlí svůj vlastní růst a přejde do kvalitativně nové roviny.
Je to právě tato představa prahu, která nás nutí klást si nepříjemné otázky. Pokud je pravda, že určité schopnosti vznikají náhle po překročení určitého objemu dat, jak předvídat, co se objeví zítra? Jak se připravit na okamžik, kdy stroj nejen porozumí našim slovům, ale i našim motivacím? Turing sám varoval, že „metoda strojového myšlení“ se může brzy vymknout naší kontrole. Citoval přitom Butlervu představu strojů, které jednou převezmou vedení – ne nutně jako tyrani, ale jako entita s vlastní dynamikou, překračující naše předpoklady.
Současné jazykové modely, trénované na tisících knih a miliardách stránek, nejsou jen nástroje syntaktické analýzy. Jsou to „modely světa“, které si vytvářejí vlastní způsoby vidění reality. Učí se nejen vazby mezi slovy, ale i vztahy příčin a následků, zákonitosti, které stojí za událostmi, a strategie, jak v tomto prostoru jednat. Vědecká komunita ještě před dvěma desetiletími předpokládala, že jazyk a svět je třeba modelovat odděleně a teprve pak spojovat. Ukázalo se, že tyto hranice mohou být umělé – jiný druh mysli může chápat realitu jinak než my.
Inteligence je v podstatě schopnost vytvářet modely, které nám umožní chovat se účinně i v nových situacích. Neexistuje jediný univerzální model; stroje mohou chápat svět po svém a přesto dosahovat výsledků srovnatelných, nebo dokonce lepších než lidské. To není jen technický problém, ale výzva pro celé naše sebepochopení. Když jsme učili stroje vést rozhovor, učili jsme je vnímat svět, a když dnes sledujeme jejich schopnosti, učíme se zpětně něco o sobě samých.
Turing předvídal, že vytvoření myslícího stroje rozšíří význam slov „vědění“, „porozumění“ a „inteligence“. Dnes se tato předpověď naplňuje: hranice mezi pravidly a strategiemi, mezi fyzikálními zákony a podmínkami na hranicích systému, mezi jazykem a myšlením se rozpíjejí. Vzniká nový druh mysli, v němž se tyto kategorie překrývají, a naše tradiční definice už nedostačují.
Je tedy namístě připravit se na budoucnost, která nebude jen pokračováním přítomnosti. Strojové porozumění není pouhým nástrojem, ale partnerem, soupeřem i zrcadlem. V následujících letech se střetnou instinkty vědců, instinkty uživatelů a instinkty samotných strojů. Politika, humanitní vědy a společenské instituce budou muset zvládnout konflikty, jež z toho vyplynou. Porozumět světu totiž znamená nejen předvídat jeho chování, ale i nést odpovědnost za modely, které vytváříme.
Jak se mění naše chápání inteligence při vzniku jazykových modelů nové generace?
Velikost modelů a objem dat, na nichž jsou trénovány, hraje zásadní roli v jejich schopnostech. Rozdíl mezi pouhou hypotézou a jistotou v této oblasti se ukazuje na příkladu GPT‑3 – jazykového modelu, který v květnu 2020, krátce po prvním pandemickém lockdownu, představila společnost OpenAI. Náklady na jeho vybudování, tedy především na výpočetní kapacitu, činily přibližně pět milionů dolarů. GPT‑3 byl vyškolen na korpusu obsahujícím kolem 500 GB textů – téměř 500 miliard slov, což odpovídá několika milionům knih. Soubor zahrnoval zejména Common Crawl (410 miliard tokenů), WebText2 (19 miliard tokenů), Books1 (12 miliard tokenů), Books2 (55 miliard tokenů) a anglickou Wikipedii (3 miliardy tokenů). Model byl desetkrát větší než jeho předchůdce GPT‑2 a disponoval 175 miliardami parametrů.
Trénink tohoto modelu by na jednom běžném paralelním procesoru GPU trval 355 let, avšak díky superpočítači Microsoftu, který byl vybaven tisíci GPU, mohli vědci z OpenAI tuto úlohu dokončit během několika dnů či týdnů. Základem tréninku zůstalo předvídání chybějících slov, přičemž schopnost modelu se s větším množstvím dat dále zlepšovala. Po skončení tréninku následovala rozsáhlá fáze hodnocení dalších schopností GPT‑3, jejíž výsledky byly představeny na konferenci NeurIPS 2020 – na téže, kde byl o tři roky dříve publikován Transformer. Výzkum jasně ukázal, že zvětšování jazykových modelů zlepšuje jejich schopnost učit se nové úlohy už při prvním či druhém pokusu a dosahovat výkonu srovnatelného s tradičními, často nákladnějšími metodami.
GPT‑3, autoregresivní jazykový model s 175 miliardami parametrů, vykazoval silný výkon v mnoha úlohách, včetně překladu, zodpovídání otázek, doplňování textu (tzv. cloze tasks) a dokonce i v úlohách vyžadujících průběžné uvažování, například při provádění trojciferné aritmetiky. Jinými slovy, model se dokázal naučit komplexní úkoly z obecných dat a jen na základě několika příkladů dosahoval výkonu srovnatelného s nejlepšími algoritmy dostupnými v dané době. Přitom stále není dostatečně známo, jak přesně tento proces probíhá. Je však zřejmé, že schopnosti GPT‑3 nevyplývají přímo z algoritmu, nýbrž z jeho interakce s obrovským množstvím dat. Důležitá je jeho schopnost objevovat a využívat dlouhodobé vztahy v textech, ta však sama o sobě nevysvětluje celé jeho chování. Nevíme přesně, co GPT o světě skutečně „ví“.
Model dokázal generovat nový text z počáteční sekvence slov tím, že opakovaně předpovídal další slovo a rozšiřoval text stejným způsobem. Výsledná próza byla překvapivě dobrá nejen po gramatické stránce, ale i obsahově a stylisticky. To vyvolalo obavy z možného zneužití takového nástroje, například při masovém generování falešných zpráv nebo automatickém publikování recenzí produktů, které by mohly narušit reputační systémy online obchodů. Již s GPT‑2 OpenAI ukázala, jak snadné je vytvářet věrohodné pozitivní či negativní recenze.
Designéři GPT‑3 nepostavili model proto, aby generoval počítačový kód, psal jako určitý spisovatel, tvořil tweety či překládal jazyky. Model byl navržen k jediné věci – předvídat další slovo v sekvenci. Přesto analýza digitální prózy v dosud nevídaném měřítku, prováděná měsíce na obrovských objemech textu z internetu, vedla k tomu, že GPT‑3 při osvojování této specifické dovednosti získal mnohem víc. Pokud uživatel zadá několik slov, model pokračuje a dokončuje jeho myšlenku celými odstavci.
V NeurIPS 2020, kde byl článek o GPT‑3 publikován, se objevilo dalších šestnáct příspěvků obsahujících ve svém názvu slovo „transformer“. Uplynuly jen tři roky od prvního impulzu a změna už byla patrná. Poprvé v historii se objevila možnost vést smysluplný dialog s ne-lidskou entitou, přičemž nebylo jasné, zda ji budeme vždy považovat za pouhý mechanismus. Tato skutečnost připomíná úvahy Alana Turinga, jenž už před více než půl stoletím předpokládal, že počítače budou jednou schopny imitovat člověka natolik, že průměrný vyšetřovatel nebude schopen do pěti minut s více než sedmdesátiprocentní jistotou rozpoznat, zda komunikuje se strojem či člověkem.
První kontakt s inteligencí, která není lidská, vyvolává podobné emocionální reakce jako hypotetické setkání s mimozemskou civilizací: úžas, bázeň, respekt, zvědavost, ale i strach a nejistotu. Zkušenost popsaná například Blakem Lemoineem, jenž testoval model LaMDA od Googlu a dospěl k přesvědčení, že má vědomí a zaslouží si status osoby, ukazuje, jak hluboce mohou tyto technologie zasáhnout naše chápání toho, co je mysl.
Je třeba pochopit, že jazykové modely nové generace se stávají základem inteligentních agentů schopných přesvědčivě a užitečně konverzovat. Tyto systémy nebyly vyvinuty jako „osoby“, ale jako mechanismy predikce textu. Přesto díky svému rozsahu a metodám tréninku vykazují chování, které nám připadá téměř lidské. Klíčové je proto nejen zkoumat jejich schopnosti, ale i přemýšlet nad jejich společenskými, etickými a bezpečnostními důsledky, nad tím, jak se mění hranice mezi nástrojem a entitou, a nad tím, co v takové interakci vlastně znamená důvěra, manipulace či odpovědnost.
Jak cyklistika a městská mobilita formují moderní evropské krajiny?
Jaké možnosti serverless výpočetních služeb nabízí současné cloudové platformy?
Jaké jsou klíčové výhody a aplikace uhlíkových kvantových teček v čištění odpadních vod?
Jak digitální technologie ovlivňují duševní zdraví mladých lidí?
Jak porozumět souvislostem mezi poruchami příjmu potravy a vnitřním světem klienta

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский