Nerovnováha ve složení tréninkových dat pro jazykové modely je zásadním faktorem, který ovlivňuje jejich výkon, přičemž nejvíce dominují angličtina a několik dalších jazyků s vysokými zdroji. Tento problém je viditelný, jakmile se podíváme na jazykové složení běžně používaných tréninkových korpusů. K roku 2025 je angličtina stále nejrozšířenější jazyk na internetu, tvořící přibližně 50 % nejlepších 10 milionů webových stránek. Jazyky jako španělština, němčina, francouzština a japonština také mají poměrně silnou reprezentaci, zatímco tisíce jazyků mluvených miliardami lidí zůstávají podreprezentovány nebo zcela chybí. Tento rozdíl není pouze kvantitativní, ale také strukturální. Jazyky se výrazně liší v gramatice, morfologii a kulturním kontextu, což vyžaduje víc než pouhé rozpoznávání slov nebo vzorců pro správné pochopení a reagování.

Příkladem této nerovnováhy je Wikipedie, která je primárním zdrojem pro trénování mnoha jazykových modelů. Analýza jejího pokrytí ukazuje, že v mnoha zemích Afriky a Asie je dominantním jazykem v článcích o těchto zemích angličtina nebo jiný koloniální jazyk, nikoli místní jazyk. To naznačuje, že systémy umělé inteligence trénované na Wikipedii mohou přebírat perspektivy, které upřednostňují vnější pohledy před místními znalostmi a kulturním kontextem. Kvantitativní zastoupení jazyků může být také zavádějící. Anglická Wikipedie má téměř 7 milionů článků, ale jazyky jako cebuano (mluvené na Filipínách) jsou také dobře zastoupeny s více než 6 miliony článků. Nicméně až 99 % článků v cebuano bylo vytvořeno automatickým botem, nikoli lidskými přispěvateli. To ukazuje na zásadní rozdíl mezi kvantitativním zastoupením a kvalitativní hloubkou—automaticky generovaný obsah postrádá nuance a kulturní kontext, který by obsahoval lidský text.

Podobné vzory se objevují i v dalších primárních tréninkových datech, jako je dataset Common Crawl, z něhož více než 90 % jazykového složení pochází pouze z deseti jazyků, přičemž angličtina představuje téměř polovinu. I velké vícejazyčné modely, jako jsou BLOOM a XGLM, které byly navrženy tak, aby podporovaly více jazyků, vykazují výkonnostní disparity odpovídající rozložení tréninkových dat. Tato nerovnováha má reálné důsledky pro uživatele po celém světě. Modely trénované převážně na anglických datech mají často problémy s jazyky, které používají jiné abecedy, následují odlišné gramatické struktury nebo vyžadují kulturní kontext, který není v tréninkových datech s převahou západního pohledu zastoupen.

V roce 2025 dosahuje GPT-4 na benchmarku MMLU (standardizovaný test znalostí a schopnosti uvažování napříč různými předměty a jazyky) vysoké přesnosti ve více než 85 % úloh v angličtině, ale pro nedostatečně zastoupené jazyky, jako je telugu, klesá přesnost na pouhých 62 %. Tento výkonový rozdíl má přímý dopad na to, kdo získává prospěch z AI systémů a kdo zůstává opomíjen. Tento problém přesahuje pouze kvantitativní zastoupení. Jazyky se liší v základních strukturách a charakteristikách. Agglutinativní jazyky, jako je turečtina nebo finština, tvoří složitá slova kombinováním morfémů, zatímco tonální jazyky, jako mandarínská čínština, používají variace tónů k rozlišení významu. Modely trénované převážně na angličtině nebo s omezeným zastoupením jiných jazyků se s těmito jazykovými rysy často potýkají a vykazují slabší výkon u konkrétních jazykových rodin.

Kulturní nuance, které jsou v jazyce zakotveny, představují další výzvu. Honorifika v japonštině, genderové podstatná jména v románských jazycích nebo kontextově závislé zájmena v mnoha asijských jazycích vyžadují kulturní porozumění nad rámec prostého překladu. Bez dostatečného vystavení těmto vzorcům mohou jazykové modely produkovat gramaticky správné, ale kulturně nevhodné nebo zmatené výstupy.

Nedávné výzkumy také ukazují na znepokojivé korelace mezi ekonomickým statusem země a výkonem jazykových modelů. Jedna studie zjistila, že modely vykazují výrazně horší výsledky v úlohách, které jsou zakotveny v jazycích a kulturních kontextech chudších regionů, jako je subsaharská Afrika, než v bohatších zemích, jako je Severní Amerika. To vytváří zpětnou vazbu, ve které lépe podporované jazyky dostávají silnější podporu od jazykových modelů, což zvyšuje jejich digitální přítomnost a dále zlepšuje jejich reprezentaci v budoucích tréninkových datech, zatímco podreprezentované jazyky mají tendenci zaostávat.

V reakci na tuto nerovnováhu vzniklo několik iniciativ. Model BLOOM, součást iniciativy BigScience, se cíleně zaměřil na 46 přirozených jazyků a 13 programovacích jazyků, aby zlepšil jazykovou rozmanitost. Projekt Masakhane se soustředí konkrétně na africké jazyky, zatímco Ghana NLP se zaměřuje na ghanské jazyky a AI4Bharat se snaží zlepšit NLP pro indické jazyky. Organizace jako UNESCO spustily programy pro digitalizaci obsahu v ohrožených jazycích, čímž vytvářejí potenciální tréninkové zdroje pro inkluzivnější modely. Komerční poskytovatelé také začali vyvíjet regionálně specifické modely optimalizované pro konkrétní jazykové rodiny. Tyto specializované modely často vykazují lepší výsledky než modely určené pro široké použití, což ukazuje hodnotu cílené sbírky dat a trénování.

Významným problémem v tomto kontextu zůstává hodnocení výkonu v mnoha jazycích. Standardní benchmarky často zaměřují své testy pouze na angličtinu nebo malý počet jazyků s vysokými zdroji, což znemožňuje efektivní hodnocení výkonu napříč různými jazykovými kontexty. Iniciativy jako XTREME a MMLU-ProX se snaží vyvinout komplexnější vícejazyčné benchmarky, ale vytváření kulturně vhodných hodnoticích sad zůstává náročné na zdroje.

Nerovnováha v zastoupení jazyků v tréninkových datech má dalekosáhlé důsledky. Když jazyky nemají adekvátní zastoupení v systémech AI, jejich mluvčí čelí bariérám v přístupu k technologiím. V subtilnější podobě jazyky, které jsou nedostatečně reprezentovány v tréninkových datech, mohou zažívat urychlenou digitální marginalizaci, jak uživatelé přecházejí k lépe podporovaným jazykům pro online interakce. Tento posun poškozuje mluvčí podreprezentovaných jazyků a hrozí, že v digitálních prostorech dojde k erozím jazykové rozmanitosti a kulturního vyjádření. Aby jazykové modely skutečně sloužily globálním populacím, musí být odstranění těchto jazykových nerovností prioritou.

Jak zajištění ochrany soukromí ovlivňuje trénink jazykových modelů a jejich zranitelnosti vůči únikům dat

Vědecké studie, jako například ty od Northeastern University a Berkeley, odhalily alarmující skutečnost, že jazykové modely, jako GPT-2, mohou obsahovat doslovně citlivé informace z tréninkových dat, které lze snadno extrahovat. GPT-2 byl vybrán, protože jeho tréninková data jsou dobře zdokumentována a tvořena výhradně veřejně dostupnými informacemi. Výzkumníci dokázali vyextrahovat stovky sekvencí, které model zapamatoval, včetně jmen, telefonních čísel, e-mailových adres, konverzací z instant messagingu, kódů a univerzálně unikátních identifikátorů (UUID). Některé z těchto sekvencí se v tréninkových datech objevily jen zřídka, dokonce jen jednou, což ukazuje, že i vzácné výskyty mohou být modelem zapamatovány. Výzkum rovněž odhalil, že větší modely mají tendenci být náchylnější k této formě "memorování" než menší modely.

Další studie z roku 2023, provedená firmou Google DeepMind a jejími spolupracovníky, ukázala, že je možné extrahovat gigabajty

Jak generativní AI mění kybernetickou bezpečnost a útoky

Generativní umělá inteligence (AI) přináší revoluční změny v oblasti kybernetických útoků, zjednodušuje a urychluje různé aspekty škodlivých činností. Ačkoli bezpečnostní experti upozorňují, že většina z těchto skupin zatím nevyužívá umělou inteligenci k vytvoření nových, neznámých schopností, AI je již aktivně testována k vylepšení rychlosti a rozsahu útoků. Kromě toho se ukazuje, že nástroje založené na AI mohou generovat polymorfní malware, který se vyvíjí v čase a dokáže se vyhnout tradičním obranám.

Příkladem toho je situace, kdy útočník požádal AI model Gemini, aby převzal existující nástroj pro krádež hesel z Chrome napsaný v Pythonu a přepsal ho do Node.js s implementací šifrování AES, což vedlo k vytvoření nové, obfuskované varianty. Tyto příklady ukazují, jak stejné schopnosti kódování, které dělají LLM (large language models) užitečné pro vývoj softwaru, mohou být aplikovány na škodlivé úkoly. Podobně, výzkumníci v oblasti kybernetické bezpečnosti ukázali, jak AI nástroje mohou generovat malware, který se vyhýbá detekci pomocí různých technik, jako je obcházení sandboxů a kontroly debuggerů.

Tento trend se projevuje také v rostoucím využívání AI pro automatizaci různých aspektů útoků, jako je výběr cílů a zrychlování útoků. Některé skupiny ransomwaru například experimentují s nástroji umělé inteligence, které umožňují rychlé rozšiřování útoků, což výrazně zjednodušuje a zrychluje procesy, které by jinak vyžadovaly rozsáhlé lidské úsilí. Bezpečnostní výzkumníci varují, že AI může být zneužita nejen pro aktivní útoky, ale i pro pasivní zranitelnosti. Technologie generativní AI, jako jsou jazykové modely, totiž často generují kód, který opomíjí klíčové bezpečnostní prvky, čímž vytváří slabá místa ve vyvíjených aplikacích.

Dalšími hrozbami spojenými s AI jsou techniky, jako je "vibe coding", při kterých uživatelé zadávají příkazy v přirozeném jazyce a neprovádějí revizi generovaného kódu. Tento přístup může zjednodušit vývoj softwaru, ale také přináší nové zranitelnosti. Útočníci mohou využívat podobné techniky, aby napadli aplikace, aniž by si vývojáři uvědomovali rizika, která jejich kód obsahuje.

Pokud jde o sociální inženýrství a phishing, generativní AI významně mění podobu těchto útoků. Phishing, Business Email Compromise (BEC) a další formy sociálního inženýrství se stávají efektivnějšími a těžšími k odhalení díky schopnosti AI generovat personalizované, plynulé a věrohodné zprávy. Výzkumníci ukázali, jak snadno lze vytvořit tisíce cílených phishingových e-mailů s minimálním úsilím, což snižuje náklady a zjednodušuje realizaci kybernetických útoků.

V roce 2023 například výzkumník použil AI nástroje jako Claude a GPT-4 k vytvoření 1000 cílených e-mailů za pouhých deset dolarů, čímž během tří hodin zorganizoval simulovanou phishingovou kampaň proti britským členům parlamentu. Tento trend ukazuje, jak generativní AI nejen zvyšuje efektivitu phishingových útoků, ale také umožňuje útočníkům snadno obcházet tradiční ochrany. FBI v roce 2025 upozornila, že zločinci používají kombinaci AI generovaných e-mailů a deepfake hlasových hovorů k imitaci vysokých úředníků a zvyšování důvěry u obětí, což výrazně usnadňuje manipulaci.

V této souvislosti se stále častěji objevují techniky jako jailbreaking a prompt injection, které útočníkům umožňují obejít bezpečnostní omezení AI modelů. Jailbreaking je technika, při které útočník přiměje model, aby ignoroval své vestavěné ochrany a vykonal nebezpečné úkoly. Příkladem je známý pokus o „persona jailbreak“, kdy bylo možné přimět model, aby jednal bez etických omezení. S každým pokrokem ve zlepšování ochrany modelů přicházejí nové metody, jak tyto ochrany obcházet.

Rovněž se vyvinul fenomén "prompt injection", při kterém útočníci vkládají skrytá nebo škodlivá zadání, která mohou modely AI zneužít k vykonání požadovaných škodlivých činností. Tento typ zneužití se může skrývat v běžných vstupech uživatelů nebo v externích datech, což činí detekci velmi obtížnou.

Generativní AI tedy přináší do oblasti kybernetických útoků nové dynamiky. Útočníci mohou využívat sofistikované nástroje, které jim umožňují obcházet tradiční obrany, a to bez nutnosti hlubokých technických znalostí. S rostoucí dostupností a pokročilostí těchto nástrojů je nezbytné, aby vývojáři a organizace pečlivě sledovali a auditovali generovaný kód, aby minimalizovali rizika vzniku pasivních zranitelností. Útoky mohou mít různorodé formy – od sofistikovaných phishingových kampaní až po použití AI k obcházení detekčních mechanismů ve formě malware nebo prompt injection.

Jak se vývoj LLM mění naše interakce s technologií a produkty?

Dnes máme před sebou nové možnosti, jakým způsobem interagujeme s technologiemi a produkty díky pokroku v oblasti velkých jazykových modelů (LLM). Tato technologie nejenom že mění způsob, jakým nakupujeme, ale také rozšiřuje možnosti osobních asistentů, kteří se stávají flexibilními agenti schopnými vykonávat složité úkoly.

Když se chystáme na větší nákup, například drahé kuchyňské vybavení, často si dáváme práci s hledáním toho nejlepšího produktu. Obvykle začneme vyhledávat recenze a hodnocení na internetu nebo si prostudujeme články v magazínech zaměřených na domácnost. Dnes mohou chatboti, kteří mají přístup k těmto informacím, fungovat jako průvodci nákupem. Na rozdíl od dřívějších virtuálních asistentů, jako jsou Siri nebo Alexa, které byly schopné pouze vykonávat specifické příkazy, LLM-asistenti dnes představují novou generaci, která nejenom provádí příkazy, ale i aktivně vyhledává a analyzuje relevantní informace.

Představa, že bychom mohli použít virtuálního asistenta k vyhledání informací o grilech na základě našich preferencí a následnému provedení nákupu, se dnes zdá být reálná. S rozvojem těchto modelů je možné, že takový systém by mohl nejenom poskytovat doporučení, ale také automatizovat celý proces nákupu. Tato agentizace je dalším krokem vpřed v oblasti osobních asistentů, kteří se stávají mnohem více než jen pasivními nástroji pro vykonávání příkazů.

Systémy, které mají schopnost adaptovat své cíle a interagovat s prostředím, jsou označovány jako agenti. Takové systémy jsou schopny flexibilně reagovat na změny a samostatně vykonávat vícestupňové úkoly. Například pokud bychom požádali asistenta, aby doporučil oblečení na základě počasí a našich denních aktivit, moderní LLM by byl schopen tuto úlohu nejenom rozdělit na jednotlivé kroky, ale i je vykonat v logickém pořadí, pokud by měl přístup k externím datům, jako je předpověď počasí nebo náš kalendář.

Tato agentizace není pouze teoretickou možností. Již dnes existují aplikace, které na základě LLM dokážou poskytovat doporučení v reálném čase a učit se z interakcí s uživateli. Například Expedia nabízí integraci s ChatGPT, která uživatelům umožňuje komunikovat a získávat doporučení ohledně letů, hotelů a aktivit při plánování cest. I když v současnosti není schopna provádět samotné rezervace, je jasné, že připojení takového systému k platebnímu API je otázkou času.

V oblasti produktivity se chatboti stávají cenným nástrojem pro plánování a dosahování cílů. Mnoho lidí se dnes obrací na LLM, aby si pomohli vytvořit efektivní plány, ať už se jedná o pravidelný cvičební režim nebo úkoly v rámci domácnosti. Specifické a podrobné pokyny, například žádost o sestavení plánu pro přípravu na maraton, ukazují na to, jak mohou být LLM užitečné v oblasti osobního rozvoje. V tomto případě může uživatel zadat konkrétní pokyny, které přimějí model vygenerovat plán vycházející z ověřených metod a principů.

Dále je důležité si uvědomit, že LLM nejsou jen nástroje pro generování textu. V oblasti psaní se stávají partnery pro brainstorming a tvorbu nových nápadů. Schopnost LLM generovat texty s různým stupněm náhodnosti a kreativity dává uživatelům šanci experimentovat s novými přístupy k obsahu. Ať už se jedná o e-maily, poznámky z porad nebo zpětné vazby k výkonu, tyto modely mohou podstatně urychlit každodenní administrativní úkoly.

Ve světě, kde se stále více času věnujeme administrativním úkolům než samotné práci, jak ukázal antropolog David Graeber, přichází s těmito novými technologiemi i možnost, jak lépe organizovat naše pracovní životy. Nástroje založené na LLM by mohly pomoci snížit množství zbytečných činností a umožnit lidem zaměřit se na kreativnější nebo strategičtější aspekty jejich profesí. Kromě toho, jak ukazují některé studie, rostoucí závislost na generovaných textech může mít vliv na kvalitu obsahu na internetu a na vývoj dalších LLM.

Významnou změnou, kterou LLM přináší, je právě schopnost integrovat se do širšího ekosystému nástrojů a systémů. Pokročilé modely, které mohou přistupovat k externím datům, provádět složité úkoly a adaptovat se na nové situace, jsou zásadní pro vytvoření skutečně inteligentních a efektivních asistentů. Očekává se, že v blízké budoucnosti budeme svědky růstu těchto aplikací v různých oblastech života.

Jak kontextové inženýrství a hodnocení výstupů AI mění způsob práce s jazykovými modely?

V posledních letech se techniky návrhu vstupů pro jazykové modely, známé jako prompt engineering, vyvinuly do sofistikovanějších a komplexnějších přístupů. Tento vývoj není pouze o vytváření jednorázového vstupu pro model, ale o širší a cyklické návrhové praxi, která zahrnuje sestavování, iteraci, optimalizaci a orchestraci systémů. Hlavními principy, které podporují tuto evoluci, jsou jasnost, kontext, iterace a struktura. Tyto zásady stále platí, ale jejich aplikace se posunula z jednotlivých promptů na úroveň celkového návrhu systému.

Jazykové modely stále potřebují kvalitně sestavené vstupy, ale postupně se mění to, co vše vstup zahrnuje. Pokud dříve šlo především o konkrétní textové pokyny, dnes je potřeba zahrnout širší kontext, který tvoří součást celkového zadání. Kontext dnes zahrnuje nejen samotný textový prompt, ale i systémové pokyny, historii interakcí, dlouhodobou paměť modelu, použité nástroje nebo definice výstupních formátů. Správné navržení těchto komponent vyžaduje rozhodnutí, co do systému zahrnout, co vyloučit, jak strukturovat jednotlivé prvky a v jakém pořadí je modelu předat.

V současnosti řada neúspěchů v systémech jazykových modelů nepochází z jejich samotné kapacity, ale z chyb nebo mezer v kontextu, který model dostává. Pokud je například zavedený text příliš obecný, nebo systémová paměť obsahuje nevhodné informace, může model sice generovat odpověď, ale nebude to odpověď správná. K vyřešení těchto problémů je nutné se zaměřit na pečlivý návrh kontextu, nikoliv pouze na zvýšení kapacity modelu. Paradoxně, čím je model chytřejší, tím důležitější je jasná a strukturovaná komunikace.

Evoluce v návrhu promptů znamená, že tento proces není již pouze jednorázovým úkolem, ale součástí širšího inženýrského přístupu, známého jako kontextové inženýrství. Tento přístup se soustředí na to, jak efektivně kombinovat všechny prvky potřebné k dosažení požadovaného výsledku, a to nejen v rámci jedné interakce, ale také ve vztahu k dlouhodobé historii a využívaným nástrojům.

Pokud jde o hodnocení výstupů generativní AI, je zásadní mít systém, který umožňuje posoudit kvalitu generovaných odpovědí. Důležité není pouze vědět, zda model dává správnou odpověď, ale také jak tuto odpověď generuje a jaké faktory ji ovlivňují. Pro každou aplikaci je klíčové mít sadu metrik, která umožní vyhodnotit, zda daný model splňuje požadavky na kvalitu výstupu.

Při práci s generativními AI modely je užitečné mít na paměti konkrétní metriky hodnocení, které zohledňují různé aspekty výstupů, jako je přesnost, úplnost, bezpečnost odpovědí a další faktory. K tomu může sloužit například specifikace požadavků na úkoly, které má model plnit, nebo cíle, jakých je potřeba dosáhnout při generování konkrétního typu obsahu. Příklad může být v oblasti generování popisů nemovitostí, kde je nutné zohlednit nejen základní faktory, jako je počet místností nebo specifikace lokality, ale také tón, který by měl popis vyvolat u potenciálních kupujících.

Je rovněž zásadní definovat, co znamená "úspěch" v dané úloze a jak jej změřit. Pro tento účel se často využívají různé hodnotící sady a metody, které pomáhají posoudit, jak dobře model zvládá generování textu podle požadavků. S rozvojem jazykových modelů je třeba neustále přehodnocovat nejen techniky generování vstupů, ale i způsob, jakým hodnotíme jejich výstupy.

Pokud jde o generování výstupů pro konkrétní účely, jako je například zpracování popisů nemovitostí, je potřeba definovat jasné atributy, které by měl výstup splňovat. Popis by měl být nejen pozitivní a přitažlivý pro potenciální kupce, ale zároveň by měl přesně odrážet skutečné údaje o nemovitosti. Důležité je mít také specifické požadavky na délku textu nebo povinné informace, jako je typ materiálů použité při stavbě nebo informace o rizicích, jako je například riziko povodní.

Také je důležité si uvědomit, že hodnocení výstupů není pouze o kvantitativních metrikách, ale i o kvalitativním posouzení. K tomu slouží nejen testy přesnosti, ale i testy, které ověřují, zda model neprodukuje nebezpečné nebo nevhodné odpovědi. V některých případech mohou existovat i hodnotící databáze, které umožňují modelům porovnávat se s ostatními na základě konkrétních úkolů, jako je generování kódu nebo odpovědi na odborné otázky.

Vzhledem k tomu, že pro konkrétní úkoly často neexistují veřejně dostupné hodnotící sady, je nutné tyto sady vytvořit vlastními silami. I přesto, že se mohou použít metody automatizovaného testování, neexistuje univerzální řešení, které by se hodilo pro všechny scénáře. Proto je důležité vyvinout vlastní metody hodnocení, které budou přesně odrážet specifické cíle a požadavky každé aplikace.