Hogyan érhetnek el kiemelkedő teljesítményt a kisebb modellek? A Phi sorozat esete

A Phi sorozat, különösen a Phi 2 modell, a kisebb nyelvi modellek számára új lehetőségeket mutat be a teljesítmény javításában, annak ellenére, hogy paramétereik száma elmarad a legnagyobb modellekétől. Az ilyen modellek eredményei arra utalnak, hogy a teljesítmény nem csupán a modell méretétől, hanem a használt adatok minőségétől is függ. A Microsoft megközelítése hangsúlyozza az „oktatási minőségű” adatok alkalmazását, amelyek szintetikus adatállományokból állnak, és amelyek célja, hogy a modellt alapvető józan észre vonatkozó következtetések levonására, valamint általános tudás elsajátítására, például a tudományos ismeretekre, a mindennapi tevékenységekre és a mentális modellekre építve fejlessze.

A Phi modellek esetében a figyelmet érdemel, hogy bár méretük – kevesebb mint 2 milliárd paraméter – viszonylag kicsi, az őket körülvevő számítási erőforrások és adatmennyiség figyelembe vétele révén nem csupán elfogadható, hanem néhol kiemelkedő teljesítményre képesek. A Phi 2 modell esetében például 1,4 billió tokenből származó, kiváló minőségű adatokat használtak. A modell ezen adatokkal és innovatív skálázási technikákkal olyan eredményeket ért el, amelyek közelítik a legnagyobb modellek, mint például a Llama 2 és a PaLM, teljesítményét, miközben az utóbbiak paraméterei sokszorosa a Phi 2-nek.

A Phi 1.5 modell szintén figyelemre méltó volt, amelynek eddigi tapasztalatait felhasználva sikerült egy olyan szintetikus adatállományt létrehozni, amely körülbelül 20 milliárd tokent tartalmazott. Ezen adatokat 20 000 gondosan kiválasztott témakörből generálták, hogy azok tükrözzék a világ különböző ismereteit. Fontos megjegyezni, hogy ezen szintetikus adatállományok alapvető szerepet játszottak abban, hogy a Phi 1.5 és későbbi modelljei képesek voltak hatékonyan tanulni olyan területeken, mint a józan ész alkalmazása, matematikai problémák megoldása és programozás.

A Phi modellek példája arra is felhívja a figyelmet, hogy a nagy számítási erőforrások nem garantálják automatikusan a modellek sikerét. A tudatos adatválogatás, a kulcsfontosságú témák és a tudásbeli hiányosságok átgondolt kezelésére van szükség. A megfelelő szintetikus adatok előállítása hamarosan az AI kutatás egyik legfontosabb területévé válhat. Az adatválogatás, különösen az oktatási értékek figyelembevételével, alapvető fontosságú a modellek megbízhatósága és sokoldalúsága szempontjából.

A Phi sorozat és a hozzá kapcsolódó skálázási technikák közvetlenül versenybe szállnak a nagyobb, több paramétert tartalmazó modellekkel. A Chinchilla modell például egy 70 milliárd paraméteres modell, amely 1,4 billió tokent használt, és szoros teljesítményt mutatott a PaLM (540 milliárd paraméter, 780 milliárd token) modellhez képest. Azonban a Phi 2, amely mindössze 2,7 milliárd paramétert tartalmaz, képes volt meghaladni a Llama 2 70B modelljét, különösen a kódolás területén.

A kisebb modellek, mint a Phi 2, megmutatják, hogy a kisebb méret nem feltétlenül korlátozza a teljesítményt. Ha a megfelelő minőségű adatokat és a fejlett skálázási technikákat alkalmazzák, a kisebb modellek képesek versenyezni a legnagyobbakkal, sőt, bizonyos feladatokban túl is szárnyalhatják őket. Az olyan modellek, mint a Gemini sorozat, amelyet a Google fejlesztett, szintén ezt a trendet erősítik. A Gemini Ultra és Pro modellek kiemelkedő teljesítményt nyújtanak különféle benchmarkokon, például a matematikai és programozási feladatokban, de a Nano változatok, különösen a Gemini Nano, figyelemre méltóan hatékonyak, és képesek a gyakorlatban, on-device alkalmazásokat is végrehajtani.

Az AI modellek teljesítménye azonban nem csupán a modellek méretétől függ. A legnagyobb modellek teljesítményét nemcsak a méretük, hanem az adatok sokszínűsége és a tesztelési környezetek tisztasága is befolyásolja. A Gemini modellek például kiemelkedtek a HumanEval kódolási feladatokban és több fordításon alapuló benchmarkon, de a tesztelési környezetek szigorú dekontaminálása szükséges a valódi teljesítmény méréséhez.

A jövőben fontos figyelembe venni, hogy a kisebb modellek nemcsak a hagyományos számítási kapacitásokat, hanem a tudatos adatgenerálást és a feladatspecifikus skálázási módszereket is igénylik. A folyamatos fejlődésben és kutatásban a kisebb modellek éppúgy kulcsfontosságú szereplőkké válhatnak, mint a legnagyobbak, amennyiben a megfelelő adatstratégiák, tesztelési protokollok és technológiai újítások révén képesek versenyezni.

Milyen módszerekkel optimalizálható a nyelvi modellek inferenciája és a hiperparaméterek kiválasztása?

A hiperparaméter-optimalizáció kritikus szerepet játszik a nagyméretű nyelvi modellek teljesítményének finomhangolásában, különösen akkor, amikor a cél nem csupán a pontosság növelése, hanem az inferencia sebességének maximalizálása. A Hyperopt keretrendszer és annak TPE (Tree-structured Parzen Estimator) algoritmusa ebben a folyamatban központi jelentőségű. A TPE egy bayesiánus megközelítést alkalmaz, amely a korábbi próbák eredményei alapján frissíti a hiperparaméterekről alkotott valószínűségi modelljét. Ez lehetővé teszi, hogy az algoritmus egyszerre kutasson új lehetőségeket (exploration), miközben a legígéretesebb régiókra koncentrál (exploitation), így jelentősen csökkentve a szükséges értékelések számát egy kimerítő kereséshez képest.

A fmin függvény max_evals=100 paramétere meghatározza, hogy az objektív függvény legfeljebb 100 különböző hiperparaméter-kombinációval kerüljön kiértékelésre. Ez a szám általában elegendő ahhoz, hogy releváns mintázatokat fedezzen fel az optimalizálási térben, különösen a TPE hatékonysága mellett. A cél a veszteség minimalizálása, azaz olyan konfigurációk megtalálása, amelyek a nyelvi modell lehető legjobb teljesítményét biztosítják adott hardver- és szoftverkörnyezetben.

Az eredményeket egy párhuzamos koordinátákat alkalmazó diagram teszi szemléletessé, ahol minden függőleges tengely egy hiperparamétert vagy metrikát jelöl, és az azokat átszelő vonalak egy-egy kísérletet reprezentálnak. A vonalak színe — jelen esetben a piros a legmagasabb TPS-t (token per second) jelöli — jelzi az adott konfigurációk teljesítményét. A legeredményesebb beállítások metszéspontjai a legerősebb teljesítményű térségekben koncentrálódnak.

A Llama 2 modell esetében a legjobb konfiguráció a következő komponensekből állt össze: MPI backend motor, 256 Rolling Batch Prefill Token, kontrasztív dekódolási stratégia, kiegyensúlyozott eszköztérkép, low_cpu_mem_usage=false, paged_attention=true, és kvantálás mellőzése. Ezen beállításkombináció eredményeképp a modell elérte a 83 TPS-t, ami extrém magas szintű inferencia-sebességet tükröz.

Fontos megérteni, hogy az optimalizáció során nem csak a hiperparaméterek, hanem az alkalmazott hardver- és szoftverplatform is döntő szerepet játszik. Az NVIDIA által kifejlesztett inferenciaplatformok — köztük az Ada, Hopper és Grace Hopper architektúrákon alapulók — jelentősen átalakították a generatív mesterséges intelligencia és nyelvi modellek futtatásának lehetőségeit. Az NVIDIA H100 NVL különösen a hatalmas LLM-ek (Large Language Models) skálázható telepítésére lett tervezve, míg az L4 a videóalapú AI-feladatokra optimalizált.

CPU-alapú gyorsítás terén a Numenta és az Intel együttműködése figyelemre méltó áttörést ért el. A negyedik generációs Intel Xeon processzorokon a Numenta modelljei akár húszszoros sebességnövekedést is elértek a nagyméretű dokumentumfeldolgozás során az AMD Milan CP

Mi rejlik egy nem kívánt házasság mögött?
Miért van szükség állati szülői gondoskodásra?
Mi történt a Mag Tured Cunga csatájában? A Fir Bolg és a Tuatha Dé közötti végzetes összecsapás története
Miért és hogyan a faformázás művészete segít a kreativitás kibontakoztatásában?