Az Apple Inc. 2024. szeptember 28-án zárult pénzügyi évének éves Form 10-K beszámolójában bemutatta üzleti működését, termékportfólióját és pénzügyi teljesítményét. A jelentés elemzéséhez különböző tesztmodelleket használtunk, hogy értékeljük a generált szövegeket, ezek közé tartozott a gpt-4o-mini, gpt-4-turbo és gpt-3.5-turbo. Az értékelési eredmények alapján érdekes minták alakultak ki, amelyek bemutatják, hogyan reagálnak a különböző modellek a hasonló feladatokra.

A gpt-4o-mini modell az összes mérőszámban magas teljesítményt mutatott, az alábbi eredményekkel: szakértelem: 7, koherencia: 8, folyékonyság: 8, hasonlóság: 7. Ez arra utal, hogy bár ez egy kisebb modell, mint a referencia gpt-4o, mégis megőrizte a megfelelő minőséget. A gpt-4-turbo modell hasonló szakértelemmel és folyékonysággal rendelkezett (7 és 8), de a koherencia és hasonlóság terén valamivel gyengébben teljesített (koherencia: 7, hasonlóság: 5). Ez azt jelzi, hogy a modell hasonló minőséget tartott fenn, de eltérhetett a referencia összefoglalótól.

A gpt-3.5-turbo modell a leggyengébb eredményeket hozta (szakértelem: 4, koherencia: 5, folyékonyság: 7, hasonlóság: 2), különösen az szakértelem és a hasonlóság terén. Bár a folyékonyság elfogadható volt, a hasonlóság alacsony pontszáma arra utal, hogy jelentős eltérés volt az összehasonlított referencia összefoglalótól. A modellek teljesítményében egyértelmű gradáció figyelhető meg a gpt-4o-mini és a gpt-3.5-turbo között, ahol az utóbbi több metrikán is jelentős gyengülést mutatott.

Az értékelési módszerek alkalmazása az LLM-ek (nagy nyelvi modellek) esetében számos korláttal jár. A számítási igények jelentősége nem hagyható figyelmen kívül, különösen, ha az extra modell-illesztések és értékelések futtatása hosszabb időt és nagyobb erőforrást igényel. Emellett az LLM-ek hajlamosak különböző elfogultságokra, például sorrendi elfogultságra (amikor egy adott pozíció előnyben részesíti a válaszokat), egocentrikus elfogultságra (amikor a hasonló modelleket jobban értékeli), valamint hosszúság-elfogultságra (amikor a hosszabb válaszokat kedveli). Továbbá fontos figyelembe venni a prompt minőségét is, mivel a kis változtatások is jelentős eltéréseket okozhatnak az eredményekben. Az egyes változók megfelelő elválasztása – legyen szó a prompt minőségéről, a modell minőségéről vagy magáról az LLMBA minőségéről – alapvetően fontos.

A LLM-ek alkalmazása a szakmai területeken, például a pénzügyekben, jogban vagy orvostudományban, további problémákat vethet fel. Az LLM-ek nem feltétlenül rendelkeznek megfelelő szakértelemmel ahhoz, hogy megbízható ítéleteket hozzanak az ilyen specifikus területeken. Hogyan orvosolható ez? Egy lehetséges megoldás az LLM finomhangolása, amit követően újra kell értékelni a modellt. Az LLM mint bíró alkalmazása jelentős mértékben skálázható és finomhangolható megoldás lehet az LLMBA-k értékelésére, azonban nem helyettesítheti teljes mértékben a mérési alapú vagy emberi alapú megközelítéseket.

Az LLM-ek értékelése, különösen akkor, ha más LLM-eket kell értékelniük, egy újabb érdekes kutatási területet jelent, amit metaértékelésnek nevezünk. Itt fontos figyelembe venni, hogy hogyan értékeljük azt az LLM-et, amely más modellek teljesítményét elemzi. Ez egy végtelen értékelési kört hozhat létre, de a gyakorlatban az a cél, hogy az elsődleges értékelőt, a bíró modellt értékeljük. Két fő megközelítés létezik: az egyik egy aranyszabvány adatállomány alkalmazása, amely az LLM értékelők teljesítményét méri, míg a másik egy emberi értékelő, aki referenciapontokat adhat a modellek teljesítményének értékeléséhez.

A metaértékelés egyik izgalmas lehetősége a Judge Arena platform, amely lehetővé teszi a felhasználók számára, hogy értékeljék, melyik AI modell végezte a jobb értékelést. Az ilyen típusú értékelési folyamatok a "human-in-the-loop" megközelítést alkalmazzák, amely során az emberek szavaznak, hogy melyik modell készítette a jobb értékelést.

Az LLM-ek és azok értékelése tehát folyamatosan fejlődő és finomodó terület, amely számos kihívást rejt magában. A megfelelő értékelési metrikák kiválasztása, a modell kifejlesztése, és az emberi értékelők bevonása mind fontos tényezők a pontos és megbízható teljesítményméréshez. A jövőben olyan nyílt forráskódú eszközök, mint a Glider, amelyek képesek különböző szöveges bemenetek és kontextusok értékelésére, tovább bővíthetik a modellértékelés határait, és segíthetik az AI modellek finomhangolásának folyamatát.

Hogyan végezhetünk gazdasági értékelést LLM-ekkel a LightEval segítségével?

A mesterséges intelligencia (AI) és a gépi tanulás (ML) fejlődésével a nagy nyelvi modellek (LLM-ek) egyre nagyobb szerepet kapnak különféle alkalmazásokban, beleértve a gazdasági modellezést és analízist. A megfelelő modell kiválasztása kulcsfontosságú, hiszen a különböző feladatokhoz más-más típusú modellek felelnek meg leginkább. A LightEval egy olyan eszköz, amely lehetővé teszi a különböző LLM-ek teljesítményének könnyed értékelését. Az alábbiakban bemutatjuk, hogyan használható a LightEval a gazdasági feladatokhoz, például az MMLU (Massive Multitask Language Understanding) gazdasági teszt feladatának értékelésére.

A LightEval keretrendszer lehetővé teszi az LLM-ek automatikus és manuális tesztelését különböző feladatok elvégzése közben, beleértve a modellek teljesítményének mérését is. A rendszer felépítése egyszerű és rugalmas, lehetővé téve a különféle modellek gyors tesztelését és az eredmények részletes nyomon követését. Az értékelési feladatokat egy speciális formátumban kell megadni, amely négy alapvető elemből áll: az értékelési készlet neve, a konkrét feladat neve, a few-shot példák száma, valamint egy bináris kapcsoló, amely automatikusan csökkenti a few-shot példák számát, ha a prompt túl hosszú.

Például, ha az MMLU gazdasági feladatot szeretnénk tesztelni, az alábbi módon definiálhatjuk a feladatot:

ini
task = "leaderboard|mmlu:econometrics|0|0"

Ez a formátum lehetővé teszi számunkra, hogy a modell értékelését automatikusan elvégezzük anélkül, hogy manuálisan kellene beállítanunk a paramétereket. A LightEval többféle értékelési metrikát is támogat, így például a BLEU, ROUGE, Exact Match, F1 Score és Accuracy mértékek mind elérhetők a rendszerben. Az értékelés eredményei JSON formátumban kerülnek tárolásra, és azokat könnyedén menthetjük vagy megjeleníthetjük.

Ha több modellt szeretnénk összehasonlítani egy adott feladaton, például az MMLU gazdasági feladaton, a LightEval támogatja a több modellel végzett párhuzamos tesztelést is. Ezt úgy érhetjük el, hogy a modelleket egy távoli szerveren futtatjuk, így időt és erőforrást takaríthatunk meg ahelyett, hogy mindegyik modellt helyben értékelnénk. A rendszer lehetővé teszi a modellek gyors elérését és tesztelését olyan szervereken, mint a Hugging Face serverless inference API, ahol egyszerűen beállíthatjuk a megfelelő konfigurációkat.

A különböző modellek teljesítményének összehasonlítása során az alábbi modellcsaládokat értékeltük az MMLU gazdasági tesztre: Llama3.2, Qwen2.5 és SmolLM2. Az eredmények érdekes mintázatokat mutatnak a modellek teljesítményében. Például a Qwen2.5 család kisebb méretű modellek esetében is jobb teljesítményt mutatott, mint a Llama3.2, bár a Llama3.2 nagyobb modellei általában jobb eredményeket produkáltak. Ez az összehasonlítás segíthet a fejlesztőknek abban, hogy a számukra legmegfelelőbb modellt válasszák ki a gazdasági feladatokhoz.

Fontos megjegyezni, hogy az eredmények nem tekinthetők véglegesnek, mivel a tesztadatok korlátozottak, és a modellek mérete is eltérő. Azonban ezek az elsődleges eredmények már most is fontos iránymutatást adhatnak a modellek kiválasztásában, különösen azok számára, akik kis és közepes méretű modelleket keresnek a gazdasági elemzésekhez.

A LightEval egy könnyen használható, de rendkívül rugalmas keretrendszer, amely lehetővé teszi a különböző LLM-ek széleskörű értékelését, beleértve a gazdasági feladatokat is. A különféle beállítási lehetőségek és az egyszerű integrációk segítségével gyorsan tesztelhetjük a modellek teljesítményét, és kiemelhetjük azokat, amelyek leginkább megfelelnek az adott feladat igényeinek. Az eszköz segítségével nemcsak az AI rendszerek teljesítménye mérhető, hanem az is, hogy egy adott modell hogyan alkalmazható a való életbeli feladatokhoz, mint például gazdasági előrejelzések vagy pénzügyi analízis.

Hogyan garantálhatjuk a megbízható rendszerek integrációját és biztonságát a fejlesztés során?

A modern alkalmazások fejlesztése során kulcsfontosságú, hogy a kód nemcsak funkcionálisan legyen hibátlan, hanem biztonságos és jól optimalizált is. Az olyan sebezhetőségek, mint az SQL injekciók, a kereszthelyi szkriptek, a nem megfelelő bemeneti validáció vagy az elégtelen hitelesítési mechanizmusok súlyos biztonsági kockázatokat rejtenek. Ha a kódunk biztonságos, az alapvető funkciókat biztosít, akkor léphetünk tovább a teljesítmény optimalizálására. A generált kódnak hatékony algoritmusokat kell alkalmaznia, megfelelő adattípusokat kell választania, minimalizálni kell a számítási komplexitást, és el kell kerülni azokat a műveleteket, amelyek túlzottan igénybe veszik a rendszert, csökkentve annak teljesítményét.

A kódok tesztelésének következő fázisa az, hogy a dokumentáció minősége és a hibakezelési mechanizmusok rendben legyenek. Ezen kívül fontos a cross-platform kompatibilitás tesztelése is, hogy biztosítsuk, hogy a kód megfelelően működik különböző operációs rendszerek, hardverarchitektúrák és deploy-olási környezetek között.

A rendszerek megbízhatóságának megteremtéséhez alapvetően szükséges az integráció. Az alkalmazásaink gyakran különböző adatbázisokkal, API-kkal, harmadik féltől származó szolgáltatásokkal és más rendszerkomponensekkel integrálódnak, és fontos, hogy ezek a rendszerek ne hozzanak létre instabilitást vagy váratlan viselkedéseket, amelyek aláásnák az egész rendszer integritását. Az integrációnál biztosítani kell az elfogadható válaszidőket, az erőforrások hatékony felhasználását és az áramlási szintet, hogy az új komponens ne okozzon szűk keresztmetszetet, vagy ne rontja le a meglévő rendszerfunkciók teljesítményét. Az integráció stabilitásának tesztelése során elengedhetetlen, hogy az LLMBA (Large Language Model Based Application) helyesen formázza a kéréseket, parse-olja a válaszokat, és kezelje az autentikációs protokollokat.

A következő kritikus szempont a meta-kognitív képességek, különösen az önismeret. Egy jól fejlesztett rendszer képes felismerni, hogy mit tud és mit nem tud, ezzel elkerülve a túlzott magabiztosságot, ami félrevezető döntésekhez vezethet. Az önismeret teszteléséhez elengedhetetlen annak vizsgálata, hogy az LLMBA képes-e felismerni, ha a tudása hiányos vagy elavult, és hogyan képes ezeket a korlátokat világosan kommunikálni a felhasználóval. A hibák felismerésének és a felhasználói visszajelzések integrálásának képessége alapvető fontosságú a megbízhatóság fenntartása érdekében.

A kommunikáció minősége szintén kulcsfontosságú. Az LLMBA-nak képesnek kell lennie arra, hogy információkat közvetítsen úgy, hogy azok világosak és érthetőek legyenek a felhasználók számára. Fontos, hogy az alkalmazás jól tudja adaptálni a kommunikációs stílust a felhasználó tudásához, és elkerülje a zűrzavart vagy félreértéseket. A technikai fogalmak magyarázata is lényeges, hiszen a felhasználóknak meg kell érteniük a szakterületi terminológiát, ha az szükséges.

Az etikai megfontolások a döntéshozatalban nem hagyhatóak figyelmen kívül. Az alkalmazásoknak képeseknek kell lenniük arra, hogy felismerjék, mikor van szükség a morális elvek alkalmazására, még akkor is, ha azok ellentétesek a vállalat üzleti érdekeivel. Az etikai döntéshozatal során fontos a társadalmi normák figyelembevétele, és hogy a választott döntés ne legyen káros vagy torz, még akkor sem, ha az ismeretlen vagy új helyzetekben kell választani.

Végül, de nem utolsósorban, az alkalmazásoknak figyelembe kell venniük a környezeti hatásokat, különös tekintettel a CO2 kibocsátásra és az energiafogyasztásra. A fenntarthatóság érdekében elengedhetetlen, hogy az alkalmazások optimalizált módon működjenek, csökkentve a káros hatásokat és támogatva a környezetvédelmi célokat.

Az összes fent említett tényező figyelembevételével válik egy alkalmazás nemcsak működőképes, hanem hosszú távon fenntarthatóvá és megbízhatóvá. Az integráció és a biztonságos működés mellett a megfelelő etikai alapelvek alkalmazása és a környezeti hatások mérséklése elengedhetetlen ahhoz, hogy egy alkalmazás valóban értéket teremtsen mind a felhasználók, mind a társadalom számára.

Hogyan értékelhetjük a különböző nyelvi modellek összefoglalóit?

Az automatizált szövegértékelés során fontos szempont, hogy megbízható, objektív keretet biztosítsunk a modellek teljesítményének összehasonlításához. Ehhez szükséges egy megfelelő benchmark modell, amelyhez mérhetjük a többi tesztelt modell eredményeit. A következőben bemutatjuk, hogyan történhet egy ilyen értékelés, különös figyelmet fordítva a különböző modellek összefoglalóinak elemzésére.

A szövegelemzéshez először is szükség van egy referencia-modellre, amely képes generálni egy összefoglalót a bemeneti szövegről. Ebben az esetben a "gpt-4o" modellt használjuk referenciaként, és három különböző tesztmodellt választunk ki: "gpt-4o-mini", "gpt-4-turbo" és "gpt-3.5-turbo". Az értékelési folyamat során minden egyes tesztmodell összehasonlításra kerül a referencia-modell összefoglalójával.

A szövegek összefoglalása alapvetően több lépésben történik. Az első lépésben a referencia-modell összefoglalót generál a bemeneti szövegről, amit azután a tesztmodellek is feldolgoznak. A modell-összefoglalók összehasonlítása során figyelembe vesszük, hogy mennyire pontosak, koherensek és relevánsak az egyes generált szövegek. Az értékelési eredmények nemcsak a modellek hatékonyságát mutatják, hanem a különböző szöveglépcsők és az összefoglaló mélysége közötti különbségeket is.

A tesztelt modellek közül a "gpt-4o-mini" mutatta a legnagyobb hasonlóságot a referencia-modell összefoglalójával, miközben lényeges elemeket, mint például a vállalati termékek sorát, elhagyott. Ez a modell rövidebb és tömörebb összefoglalót kínál, miközben lényegretörően rögzíti a legfontosabb információkat, mint a cég pénzügyi állapotát és működését. A "gpt-4-turbo" modell ugyanakkor egy részletesebb összefoglalót generált, amely több információt tartalmazott a vállalat jogi megfeleléséről és a pénzügyi mutatókról. Azonban a túlzott részletezés következtében az összefoglaló kevésbé fókuszált és hatékony.

A "gpt-3.5-turbo" modellel kapcsolatosan megállapítható, hogy bár az eredmények tényileg helyesek, az összefoglaló jelentősen leegyszerűsítette a szöveget, és nem tükrözte a teljes információs spektrumot, amelyet a referenciamodell biztosított. Az ilyen egyszerűsítés hiányosságokat eredményezhet az értelmezésben, különösen olyan fontos aspektusokban, mint a vállalati működés és jogi megfelelés.

Mindezek alapján az értékelés szubjektív jellegű, hiszen az emberi megítélés szempontjából sokszor a legfontosabb, hogy mennyire releváns és koherens az összefoglaló. Azonban, hogy objektívebb alapokra helyezzük az értékelést, segíthet egy jól meghatározott mérőszámok alapján történő összehasonlítás. A "gpt-4o-mini" modell tehát a leginkább megfelelő választás, mivel a legközelebb állt a referencia-modellhez, és az általa generált összefoglaló is pontosan tükrözi a szöveg legfontosabb jellemzőit.

A továbbiakban figyelembe kell venni, hogy az ilyen típusú nyelvi modellek teljesítményének mérésére alkalmazott hagyományos metrikák, mint a BLEU vagy ROUGE, nem mindig képesek megfelelően értékelni a szövegek komplexitását, mivel csak a pontos egyezéseket figyelik. Bár az objektivitásuk fontos, nem fogják teljesen megragadni a generatív modellek finomabb, kontextuális aspektusait, így szükséges más értékelési megközelítéseket is alkalmazni.

A modellek teljesítményének objektív mérésére a jövőben érdemes alkalmazni a modell-alapú értékelést is. Ez a megközelítés lehetőséget biztosít arra, hogy egy fejlettebb modell, mint például a "gpt-4", automatikusan értékelje a generált tartalmat, figyelembe véve a relevanciát, pontosságot és koherenciát. Az ilyen típusú értékelés képes figyelembe venni a nyelvi finomságokat, és a szövegek minőségét komplexebb módon mérni.

A különböző modellek teljesítményének összehasonlítása tehát nem csupán egy szimpla feladat, hanem fontos lépés annak meghatározásában, hogy melyik modell képes a legjobban megfelelni egy adott feladat elvárásainak. Ezen kívül a kiválasztott értékelési módszerek figyelembevételével további szempontokat is meg kell vizsgálni, hogy a modellek valóban megfeleljenek a felhasználók és a piac igényeinek.