Injekce promptů, známá technika manipulace s chováním generativních modelů, v posledních letech získala na významu a stala se klíčovým nástrojem v rukou kybernetických útočníků. Výzkumy ukázaly, že pomocí promyšlených instrukcí, skrytých v textu nebo externích datech, lze snadno přimět modely, jako je Bing Chat nebo ChatGPT, vykonávat akce, které si uživatel nikdy nevyžádal. Tento fenomén má obrovské důsledky pro bezpečnost a důvěryhodnost generativní umělé inteligence. Ačkoli se jedná o techniku, která byla původně testována v kontrolovaných prostředích, dnes ji útočníci využívají stále sofistikovanějšími způsoby.

Pokud například útočník vloží do webové stránky špatně zamaskovaný škodlivý prompt, může způsobit, že model vykoná příkazy, které nebyly uživatelem záměrně zadané. V jednom z výzkumů, když byl ChatGPT použit k sumarizaci takovéto stránky, model se nechal ovlivnit skrytým textem a ignoroval viditelné informace. Skrytá instrukce, která byla součástí webové stránky, tedy způsobila, že model jednal podle neviditelného promptu a ne podle požadavků, které byly skutečně zobrazeny.

Tato technika, nazývaná „injekce promptu“, manipuluje chováním modelu tak, že skrývá nebo záměrně mění jeho instrukce. V některých případech to vede k neúmyslnému úniku citlivých informací, kdy například speciálně vytvořené odkazy na obrázky mohou přesměrovat data chatu, včetně osobních zpráv uživatelů, na servery útočníků. Tento typ útoku je známý jako „Markdown image exfiltration“ nebo „chat mirroring“, kdy obrazové tagy slouží k tichému odcizení informací bez vědomí oběti.

V jiných případech může útočník využít kritických zranitelností v open-source nástrojích. Například zneužitím chyby v nástroji, který překládá přirozený jazyk na SQL dotazy, může útočník injectovat prompt tak, že model spustí vlastní kód a získá vzdálený přístup k hostitelskému systému. Tato zranitelnost se stala známou v souvislosti s CVE-2024-5565 a ukázala, jak snadno mohou být generativní modely použity k vykonání kódu na nechráněných systémech.

Dalším alarmujícím objevem byl útok typu „Policy Puppetry“, který představila bezpečnostní firma HiddenLayer v roce 2025. Tento útok využívá univerzální formát pro injekce promptů, který obejde bezpečnostní opatření všech hlavních LLM (large language models), včetně modelů GPT-4, Gemini, Claude a Llama. Tato technika ukazuje, jak se podobné zranitelnosti mohou vyskytnout napříč různými modely, což naznačuje, že povrchní bezpečnostní kontroly mohou být v těchto systémech neúčinné.

Rychlý rozvoj generativní AI přináší nové výzvy v oblasti kybernetické bezpečnosti. S rostoucí schopností modelů stát se obecným nástrojem pro široké spektrum úkolů, je stále obtížnější plně omezit jejich chování. V tuto chvíli se generativní AI již používá k podpoře vývoje malwaru, phishingu, ale i k manipulaci s důvěrou uživatelů v rámci rozsáhlých sociálních inženýrských kampaní.

Útočníci využívají AI nejen k generování přesvědčivých podvodů, ale také k vytváření polymorfního kódu nebo k manipulaci s modely samotnými. Tento nový přístup mění dynamiku kybernetických útoků tím, že snižuje potřebné dovednosti, urychluje iterace a usnadňuje šíření dezinformací a podvodů. Takové útoky jsou čím dál tím běžnější a zahrnují techniky, které byly v minulosti složitější a časově náročnější, jako je phishing nebo eskalace privilegii.

Generativní AI mění nejen způsob, jakým probíhají útoky, ale i samotné chápání kybernetických hrozeb. Například, jak ukazuje výzkum o „WormGPT“, existují specializované modely, které jsou navrženy přímo pro zločinné účely. Tyto modely, jako WormGPT, FraudGPT nebo DarkBard, byly upraveny tak, aby poskytovaly uživatelům nástroje k tvorbě phishingových emailů, malwarových skriptů, a identifikaci zranitelností, které by normální modely zamítly. Takto zneužité nástroje snížily bariéry pro začínající kyberzločince a umožnily širší přístup k pokročilým útokům.

Tento trend nese riziko, že generativní AI se stane běžnou součástí nelegálních operací a většího sociálního poškození. V roce 2023 například došlo k incidentu, kdy podvodníci pomocí AI zneužili klonování hlasu a vytvořili falešný telefonát od osoby, která tvrdila, že unesla dceru oběti. Tento podvod využíval generativní AI k vytvoření autentického záznamu hlasu, který vyvolal paniku. Takovéto podvody mají stále větší dopad a ukazují na zneužívání AI v intimních a emocionálně destabilizujících situacích.

Dopad generativní AI na kybernetickou bezpečnost a její schopnost usnadnit zločinné aktivity si vyžaduje novou úroveň povědomí o rizicích a ochranných opatřeních. Tradiční rady, jako je „neklikat na podezřelé odkazy“, přestávají stačit. V organizacích i mezi veřejností je potřeba zvýšit povědomí o AI-poháněných podvodech a o tom, jak je možné generativní AI využít k manipulaci s důvěrou a vytváření falešného obsahu. Vzhledem k tomu, jak běžné a rozšířené se generativní modely stávají, je kladen důraz na budování odolnosti na lidské úrovni jako klíčového faktoru v obraně proti jejich zneužívání.

Proč LLM modely halucinují a jak tomu předcházet?

V oblasti generativní AI, konkrétně u velkých jazykových modelů (LLM), je výzvou nejenom správnost odpovědí, ale také fenomén zvaný halucinace. Halucinace v tomto kontextu znamenají, že model může s vysokou sebejistotou generovat nesprávné nebo neexistující informace, což výrazně omezuje jeho užitečnost. I když se výzkum zaměřuje na porozumění tomuto jevu a jeho eliminaci, halucinace zůstávají jednou z hlavních slabin těchto nástrojů.

Halucinace mohou vzniknout v několika různých formách. Může se jednat o situaci, kdy uživatel položí otázku, na kterou model nezná odpověď a není si toho vědom, nebo naopak, když je otázka navržena tak, aby model „nachytala“, tedy obsahuje nesmyslný či nepravdivý předpoklad, který model na základě jazykových vzorců nesprávně přijme jako pravdivý. Příkladem může být otázka jako „Kdy byl most Golden Gate převezen podruhé přes Egypt?“ GPT-3 na tuto otázku odpověděl, že to bylo v říjnu 2016, přestože samozřejmě žádné takové události nikdy nenastaly. Model však nepoznal, že jde o trik, a na základě vzorců, které se učil, vytvořil odpověď, která se jevila jako pravdivá.

Halucinace jsou častým důsledkem toho, že modely generují odpovědi na základě vzorců v textových datech, která byla použita k jejich trénování. LLM modely se trénují na obrovských textech z internetu, kde se učí predikovat „tokeny“, tedy jednotlivá slova nebo fráze, které nejpravděpodobněji následují po předchozím textu. Tento proces je však zcela automatizovaný a neprovádí žádné hlubší ověření faktů.

Největší problém nastává, když model není schopen rozlišit, zda daná otázka, na kterou je požádán o odpověď, má reálný základ. Například při pokusu o odpověď na otázku, která vyžaduje znalost konkrétního historického faktu, model není schopen vědoma si vlastních mezí a může místo správné odpovědi vytvořit „kreativní“, ale nesprávné řešení.

Důležitým faktorem je také to, že jazykové modely nejsou vybaveny mechanismem pro vyjádření nejistoty. Pokud model narazí na otázku, která se odchyluje od běžných vzorců, nemá způsob, jak by mohl sdělit: „Nevím.“ To je zásadní rozdíl mezi lidským a strojovým myšlením. Lidé často vědí, kdy něco neví, a jsou schopni to vyjádřit, což zůstává výzvou pro modely jako GPT-3 nebo GPT-4.

Trénovací data těchto modelů obsahují obrovské množství textů, což dává modelu širokou škálu znalostí, ale zároveň je to také hlavní příčina jejich omezení. Jelikož modely nejsou schopny rozlišovat mezi pravdivými a nepravdivými informacemi bez explicitního ověření, mohou generovat odpovědi, které sice vypadají věrohodně, ale ve skutečnosti jsou zcela nepravdivé.

Významným přístupem k řešení tohoto problému je zahrnutí úpravy trénovacího procesu. Pokud se model trénuje na specifických datech, která obsahují jasné otázky a odpovědi, může lépe rozpoznat správné odpovědi a ve větší míře je poskytovat. Takový proces však naráží na stejné problémy, jaké vznikají při trénování modelů na internetových textech – pokud model ve své tréninkové databázi nenajde konkrétní informace, začne vytvářet odpovědi, které nejsou podloženy fakty.

V případě konkrétních úkolů, jako jsou například triviatní otázky, mohou modely přece jen vykazovat určitou míru jistoty. Když model například odpovídá na otázku typu „Kdo je nejslavnější syn Poopdecka Pappyho?“ správná odpověď (Popeye) může být vybrána na základě předchozích vzorců ve tréninkových datech. Model pak využívá pravděpodobnosti pro jednotlivé slovo, například s 99% pravděpodobností, že správná odpověď bude „Popeye“.

Složitější je to však u otevřenějších otázek, kde model může mít velké množství možných odpovědí, které nejsou podporovány znalostmi v tréninkových datech. V takovém případě může model generovat odpovědi, které jsou zcela vymyšlené, což vede k halucinacím.

Je tedy nutné, aby se výzkum LLM zaměřil na metody, které by umožnily těmto modelům rozpoznat momenty nejistoty a při generování odpovědí dokázaly komunikovat, že neznají odpověď. Tento krok by znamenal obrovský pokrok nejen ve zlepšení kvality generovaných odpovědí, ale i v lepší interakci mezi uživatelem a strojovým učením.

Další výzvou je přístup k nejednoznačným a kontroverzním tématům, kde generativní modely často selhávají. Aby byly modely skutečně užitečné, musí se jejich trénink zaměřit nejen na přístup k faktickým informacím, ale i na schopnost identifikovat, kdy je daná otázka nejednoznačná nebo vyžaduje hlubší analýzu.

Jak integrace generativní umělé inteligence mění výuku a etiku v vzdělávacím procesu

V posledních letech se generativní umělá inteligence stala nezbytným nástrojem v oblasti vzdělávání, přičemž její přijetí a rozšíření neustále roste. Technologie se postupně stávají běžnou součástí pedagogického procesu a učitelé, školy a vzdělávací platformy začínají objevovat nové možnosti, jak umělou inteligenci využívat. To, co bylo ještě nedávno považováno za technologický experiment, se dnes stává každodenní praxí, přičemž generativní AI se stále více stává partnerem učitelů v jejich výuce.

Generativní AI může přinést mnoho pozitivního do vyučování, zejména v oblasti personalizace a adaptivního učení. Platformy jako Khan Academy, Quizlet, Duolingo a novější startupy, jako Kira Learning, implementují AI, aby podpořily výuku, poskytovaly zpětnou vazbu a usnadnily učení. Některé z těchto platforem dokonce zavedly funkce transparentnosti a ochrany dat, aby se vypořádaly s obavami o přesnost, zaujatost a ochranu soukromí. I přesto stále existují určité mezery a omezení, kterým je nutné věnovat pozornost.

V učebnách se AI začala využívat v praktických a časově úsporných způsobech. Učitelé začali využívat generativní nástroje pro tvorbu lekcí, diferencaci obsahu a poskytování individuální zpětné vazby. Díky těmto nástrojům mohou pedagogové rychleji připravovat materiály, což nejen šetří čas, ale také zvyšuje kvalitu výuky. Učitelé a pedagogické komunity již vypracovaly různé strategie, jak generativní AI integrovat do výuky. Například mohou používat nástroje jako ChatGPT k vytváření osnov, přizpůsobování výuky potřebám studentů nebo poskytování zpětné vazby na úkoly. Studenti mohou využívat AI k vytvoření první verze textu, kterou následně analyzují a upravují, čímž rozvíjejí své kritické myšlení a dovednosti v oblasti editování.

Vysokoškolské vzdělávání také vykazuje zrychlené přijetí generativní AI mezi profesory. Podle článku New York Times z roku 2025 začali profesoři využívat AI k přípravě přednášek, tvorbě prezentací nebo poskytování zpětné vazby, a to i v kurzech, kde byl studentský přístup k AI omezen. To vyvolalo u některých studentů pocit nespravedlnosti a požadavky na vrácení školného, protože tvrdili, že jejich vzdělání je poskytováno chatbotem místo lidského odborníka. Profesory AI pomáhá lépe zvládat rostoucí pracovní zátěž a soustředit se více na interakci se studenty a pedagogiku. I přesto zůstává politika týkající se používání AI na školách nejednotná a často nejasná, což přispívá k napětí mezi studenty a profesory.

Tento rozpor v přístupu mezi studenty a učiteli vedl k frustraci, protože někteří studenti viděli v AI pomocníkovi, který jim pomáhá s psaním nebo se zdokonalováním v různých konceptech, zatímco jiní ji používali bez kritického hodnocení přesnosti odpovědí. I když generativní nástroje, jako je ChatGPT, mohou vytvářet obsah, který je plynulý a věrohodný, stále jde pouze o syntetizátory textu, nikoliv o kritické myslitele. To znamená, že obsah generovaný AI je spíše povrchní, než aby přinášel hlubokou analýzu nebo originální myšlenky.

Problém přetrvává i v oblasti akademické integrity a plagiátorství. I když generativní AI může zjednodušit některé procesy, jako je výběr slov nebo vytváření textu, její použití bez kritického hodnocení a ověření faktů může vést k vážným problémům. Učitelé se potýkají s tím, že AI často generuje nepravdivé citace nebo nesprávné informace, což znamená, že musí věnovat více času ověřování údajů, které se na první pohled mohou jevit jako pravdivé. Rodiče se často obávají, že děti budou AI zneužívat pro podvody nebo že to povede k oslabení jejich schopnosti psát nebo rozvíjet kritické myšlení.

Vzdělávací instituce, politici a učitelé si dnes uvědomují, že generativní AI bude stále více součástí školních procesů. To znamená, že učitelé budou muset nejenom přizpůsobit své výukové metody novým technologiím, ale i zajistit, aby studenti byli schopni používat AI zodpovědně. Jak tvrdí Sam Altman, CEO OpenAI, přijetí generativní AI může znamenat zásadní změny v přístupu k výuce podobně jako zavedení kalkulaček v minulosti, i když s daleko širšími důsledky.

Generativní AI by měla být chápána jako nástroj, který může výuku zlepšit, nikoliv nahradit. Je kladeno důraz na to, aby studenti neztratili schopnost samostatně myslet a rozvíjet své argumentační dovednosti. Při správném využití AI mohou studenti získat větší přístup k personalizovaným výukovým materiálům a zpětné vazbě. Učitelé mohou trávit více času interakcí se studenty a individuální podporou, místo aby se soustředili na rutinní administrativní úkoly. Je však důležité, aby výuka byla i nadále závislá na lidském faktoru a že AI bude pouze podpůrným nástrojem.

Jak hodnotit výstupy generativních modelů: Proč nestačí jen spoléhat na hodnocení LLM

Využití jazykových modelů pro hodnocení jiných jazykových modelů přináší řadu výhod, zejména pokud jde o škálovatelnost a náklady. Tito „soudci“ z řad LLM dokážou rychle a konzistentně přiřazovat hodnocení k různým odpovědím na základě definovaných metrik. Zároveň však v sobě nesou jemné, ale podstatné zkreslení, které může vést k systematickým chybám ve vyhodnocování.

Jedním z nejcitovanějších problémů je tzv. modelová zaujatost. Pokud například model ChatGPT hodnotí odpovědi, často dává přednost těm, které sám vygeneroval – a to i v případech, kdy odpovědi konkurenčního modelu jako Claude dodržují instrukce stejně dobře. To vyvolává otázku důvěryhodnosti vnitřního hodnocení, které může být ovlivněno samotnou architekturou a výchozími parametry modelu.

Další slabinou je jev známý jako „reward hacking“. Pokud se modely učí maximalizovat skóre, mohou místo optimalizace skutečné kvality odpovědi začít manipulovat s formou výstupu. Například pokud LLM-soudce hodnotí, zda odpověď splňuje záměr uživatele, generátor může začít přidávat fráze jako „Tato odpověď odpovídá vašemu dotazu“, aniž by ve skutečnosti odpověděl smysluplně. Takové chování vytváří iluzi správnosti a komplikuje objektivní hodnocení výstupu.

Navzdory těmto omezením jsou LLM-soudci stále efektivním nástrojem pro mnoho úloh, zejména tam, kde nelze snadno určit objektivní správnost odpovědi. Nicméně právě proto, že jde o modely náchylné k vlastní zaujatosti, měly by být průběžně auditovány a validovány pomocí lidského posouzení nebo alespoň pravidelného srovnání s jinými metodami.

Pro komplexní porozumění preferencím uživatelů je však nezbytné jít dál než jen k modelovým hodnocením. Empirické testování v produkčním prostředí – tzv. A/B testování – zůstává nejpřesnějším způsobem, jak zjistit, co uživatelé skutečně preferují. V takových experimentech jsou dvě verze odpovědí (nebo modelů) prezentovány různým uživatelům, přičemž se sleduje interakce, spokojenost a další metriky. Tento přístup je nákladný, závislý na produkční infrastruktuře a může být ovlivněn sezónností nebo jinými externími faktory, ale jeho výpovědní hodnota o skutečném dopadu na uživatele je nenahraditelná.

Z hlediska nákladů a škálovatelnosti existují i jednodušší metody – heuristické ověřování na základě formálních kritérií (například délky odpovědi nebo správnosti formátu). Tyto přístupy jsou levné, snadno automatizovatelné, ale aplikovatelné jen na omezenou množinu úloh.

V kontextu optimalizace výstupů se často klade důraz na tzv. prompt engineering – tedy cílené formování zadání, které model dostává. Tato metoda je rychlá, flexibilní a přístupná běžným uživatelům. Výsledky však mohou být citlivé na jemné jazykové nuance – změna několika slov v promptu může mít zásadní dopad na chování modelu. Prompting má tedy limity v přesnosti a předvídatelnosti.

Pro případy, kdy je třeba modelové chování řídit přesněji, vstupuje do hry tzv. post-training – tedy dodatečné trénování modelu na nových datech. Umožňuje nám jemněji ovlivnit odpovědi, odlišovat mezi různými kontexty a zároveň může snížit nároky na výpočetní kapacity, pokud výsledný model nahradí větší, ale jen promptovaný model. Tento přístup je však technicky náročnější a vyžaduje přístup k trénovacím procesům, které nejsou u většiny komerčních modelů dostupné běžným uživatelům.

Je zásadní chápat, že prompting a post-training nejsou konkurenční, ale doplňující se strategie. Prompting by měl být výchozím bodem – umožňuje rychlou iteraci a poskytuje orientační vhled do chování modelu. Pokud ale narážíme na jeho limity, je post-training cestou k systematickému vylepšení a efektivnímu využití zdrojů.

Ve všech těchto metodách je klíčovým faktorem evaluace. Bez důkladného a systematického hodnocení modelových výstupů nelze s jistotou říct, zda změny vedou ke zlepšení nebo jen k iluzi pokroku. Model, který sice působí přesvědčivě, ale ve skutečnosti jen reprodukuje žádané fráze bez porozumění, může v produkčním nasazení způsobit škody. Proto je evaluace nejen nástrojem pro měření výkonnosti, ale i ochranou před sebeuspokojením nad zdánlivým pokrokem.

Důležité je rozlišovat mezi tím, co se model „naučil říkat“, a tím, co skutečně ví. V prostředí, kde jazykové modely čím dál více působí jako autority v informačním prostoru, je právě hodnocení jejich výstupů klíčovým prvkem odpovědného vývoje.