A Bernoulli-kísérletek, amelyeket egyetlen pénzfeldobás reprezentálhat, alapvető szerepet játszanak a valószínűségi modellezésben és a statisztikai elemzésben. Az ilyen típusú kísérletek esetében egy valószínűségi változót, Y-t definiálunk, ahol Y = 1, ha fej jön ki, és Y = 0, ha írás. A Y valószínűségi eloszlása a következő módon adható meg: p(y | θ) = θ^y(1−θ)^(1−y), ahol θ ∈ [0, 1] a fej megjelenésének valószínűsége. Ezt az eloszlást Bernoulli-eloszlásnak nevezik.

Amikor több, független kísérletet hajtunk végre ugyanazon érmén, és az eredményeket Y1, Y2, ..., Yn jelöli, akkor a valószínűségi eloszlásukat a szorzás szabálya szerint a következő módon kaphatjuk meg:

p(y1,y2,...,ynθ)=i=1np(yiθ)=θyi(1θ)1yip(y_1, y_2, ..., y_n | θ) = \prod_{i=1}^n p(y_i | θ) = θ^{y_i}(1−θ)^{1−y_i}

Ez tehát az összes kísérlet közös valószínűségi eloszlása. Ha például 50 pénzfeldobást végeztünk el, és rögzítettük az eredményeket, ahol 12 fej és 38 írás jött ki, akkor a maximális valószínűségi becslés (Maximum Likelihood Estimation, MLE) a következő képlettel adható meg:

θ^MLE=i=1nyin=1250=0.24\hat{θ}_{MLE} = \frac{\sum_{i=1}^{n} y_i}{n} = \frac{12}{50} = 0.24

Ez az érték intuitívan azt jelenti, hogy ha 50 pénzfeldobásból 12 esetben fej jön ki, akkor a legjobb becslés a fej valószínűségére 0.24.

A gyakorlati statisztikai elemzés során fontos megérteni a valószínűségi eloszlások és a becslési technikák kapcsolatát. A gyakorlati megközelítések szerint a gyakorisági iskola és a Bayes-i iskola különböző módon kezelik az ilyen típusú problémákat. A gyakorisági iskola szerint a p(y | θ) eloszlás a valószínűségi függvény, amelyet a paraméterek becslésére használunk, míg a Bayes-i iskola szerint a p(y | θ) valószínűségi eloszlás egy valószínűségi modellt tükröz, amelyet a paraméterek eloszlására is alkalmazhatunk.

A gyakorisági iskola hívei azt mondanák, hogy a paraméterek legjobb becslése az, amely maximalizálja a valószínűségi függvény logaritmusát, a log-valószínűséget. A log-likelihood a következő módon néz ki:

lnL(θ)=i=1nyiln(θ)+(ni=1nyi)ln(1θ)\ln L(θ) = \sum_{i=1}^{n} y_i \ln(θ) + (n - \sum_{i=1}^{n} y_i) \ln(1 - θ)

A maximális valószínűségi becslés az, hogy θ értéke maximalizálja ezt a logaritmus függvényt. A valószínűségi becslés a gyakorisági iskolában egyetlen érték, míg a Bayes-i megközelítés egy valószínűségi eloszlást ad meg a paraméterekre, nem csak egyetlen pontot.

A becslés minőségének értékeléséhez gyakran a hiba, azaz a torzítás (bias) és a variancia (variance) fogalmai kerülnek előtérbe. A torzítás a becslés várható értékének és a valós paraméternek a különbsége, míg a variancia a becslés szórását méri. Egy becslő akkor tekinthető torzítatlannak, ha a torzítás értéke nulla. A variancia és a torzítás közötti kapcsolat kulcsfontosságú a statisztikai elemzésben, mivel a becslési hibát a következő összefüggés adja meg:

MSE(θ^,θ)=Var(θ^)+bias(θ^,θ)2MSE(θ̂ , θ) = Var(θ̂) + \text{bias}(θ̂ , θ)^2

Ez az összefüggés a becslési hiba két összetevőjét – a varianciát és a torzítást – különbözteti meg, és az optimális becslés célja a variancia és a torzítás megfelelő egyensúlyának megtalálása.

A variancia és a torzítás közötti dilemma (bias-variance tradeoff) alapvető szerepet játszik a statisztikai modellezésben. Amikor a torzítást minimalizáljuk, gyakran nő a variancia, és fordítva. A megfelelő egyensúly megtalálása elengedhetetlen ahhoz, hogy a becslésünk pontos és stabil legyen, különösen nagy minták esetén. A leggyakrabban alkalmazott veszteségfüggvények, mint az abszolút hiba és a négyzetes hiba, segítenek a becslési hibák kvantifikálásában, és a becslő tulajdonságainak értékelésében.

A becslési hibák csökkentése érdekében a gyakorlatban a gyakorisági megközelítés és a Bayes-i megközelítés különböző módszereket kínálnak. Míg a gyakorisági megközelítés egyetlen értéket ad, amelyet a maximális valószínűség alapján becsülünk, a Bayes-i megközelítés egy eloszlást ad, amely jobban tükrözi a paraméterek bizonytalanságát.

Hogyan optimalizáljuk a mélytanuló modelleket: A módszerek és technikák áttekintése

A paraméter μ szabályozza a változók frissítésének sebességét, és ezen keresztül a csillapító hatást is. A fizikai analógia szerint ez hasonlít a kinetikus energia csökkentésére, ami lehetővé teszi a mozgások „lelassulását” a minimumok környékén. Ezt a paramétert gyakran empirikusan választják meg keresztvalidálással. Nesterov impulzus módszere (más néven Nesterov gyorsítás) viszont a gradienst az impulzus által előre jelzett pontban számítja ki. Ezt egyfajta előretekintő stratégiaként értelmezhetjük. Az így kapott frissítési egyenletek a következőképpen alakulnak:
vk+1 = μvk - tkg((W, b)k + vk), (W, b)k+1 = (W, b)k + vk.

Az SGD módszer egyik népszerű módosítása az AdaGrad módszer, amely minden egyes tanulási paramétert adaptívan méretez az egyes iterációk során. Az AdaGrad frissítési egyenletek a következőképpen néznek ki:

ck+1 = ck + g((W, b)k)², √ (W, b)k+1 = (W, b)k - tkg(W, b)k / (ck+1 - a), ahol a egy apró szám (például a = 10⁻⁶), amely megakadályozza a nullával való osztást. A PRMSprop tovább viszi az AdaGrad ötletét, és nagyobb súlyt ad a legutóbbi gradient négyzeteknek a frissítési irány skálázására, tehát:
ck+1 = dck + (1 - d)g((W, b)k)².

Az Adam módszer az előzőekben bemutatott PRMSprop és impulzus módszereket kombinálja, és az alábbi frissítési egyenleteket adja:
vk+1 = μvk - (1 - μ)tkg((W, b)k + vk), ck+1 = dck + (1 - d)g((W, b)k)², √ (W, b)k+1 = (W, b)k - tkvk+1 / (ck+1 - a).

A második rendű módszerek a nemlineáris egyenletek, mint a ∇f (W, b) = 0 megoldásával dolgoznak Newton módszerrel:
(W, b)+ = (W, b) - {∇²f (W, b)}⁻¹∇f (W, b). Az SGD egyszerűen a ∇²f (W, b) mátrixot 1/t alakban közelíti. A második rendű módszerek előnyei közé tartozik a gyorsabb konvergenciasebesség és a problémák kondicionálásától való függetlenség. A gyakorlatban azonban ritkán alkalmazzák őket mélytanulásos alkalmazásokban, mivel nem képesek batch feldolgozásra, ami elengedhetetlen a nagy adathalmazok kezelésében.

A számítási szempontok tekintetében a batch feldolgozás önállóan nem elegendő az SGD módszerek skálázására a modern, nagy teljesítményű számítógépeken. A visszaterjesztés láncszabályon keresztüli alkalmazása örökletes szekvenciális függőségeket eredményez a súlyok frissítésében, így korlátozva a mély tanuló modellek adatdimenzióit. Polson és munkatársai (2015) egy prokszimális Newton-módszert javasolnak, amely egy hatékony megoldást kínál az ilyen modellek becslésére és optimalizálására, valamint a regularizációs útvonal számítására. Ezen módszer a multiplikátorok váltakozó irányú módszerét alkalmazza (ADMM), amely lehetővé teszi a paraméterek blokkonkénti frissítését az összes rétegen, ezáltal kiküszöböli a visszaterjesztésben rejlő szűk keresztmetszeteket, és megkönnyíti a nagy adathalmazok kezelését.

A mélytanulás széles körű alkalmazását segítette elő a TensorFlow (Abadi et al., 2016) kifejlesztése, amely lehetővé teszi a gépi tanulási algoritmusok egyszerű kifejezését és a számítási igényes műveletek térképezését különböző hardverplatformokra, különösen a GPU kártyákra. A TensorFlow-t az Edward könyvtár bővítette (Tran et al., 2017), amely a Bayes-i statisztika és a valószínűségi programozás fogalmait ötvözi a mélytanulással.

A dropout technika az egyik legfontosabb módszer, amely megakadályozza a neurális hálózatok túlilleszkedését. A dropout egy számításilag hatékony technika, amely a modell varianciáját csökkenti azáltal, hogy sokféle modell konfigurációt figyelembe vesz és azok előrejelzéseit átlagolja. A bemeneti tér Z = (Z₁, ..., Zn), ahol n nagy, dimenziócsökkentési technikákat igényel, hogy elkerüljük a túlilleszkedést a tanulási folyamat során. A dropout úgy működik, hogy véletlenszerűen eltávolítja a réteg bemeneti elemeit egy adott θ valószínűséggel. A θ valószínűség egy további hiperparaméternek tekinthető (például λ-hoz hasonlóan), amely keresztvalidálás révén finomhangolható.

A dropout architektúra valószínűségi keresést végez a prediktorok között, ahol di ∼ Ber(θ), Z̃(θ) = d(θ) ◦ Z(θ), 1 ≤ θ < L, Z(θ) = σ(θ)(W(θ)Z̃(θ−1) + b(θ)).

A célfüggvény lényegében hasonlít a ridge regresszióhoz g-priorral.

Bayes-i neurális hálózatok alkalmazása új lehetőségeket nyitott meg a statisztikai modellezésben. A Bayes-i mélytanulás erőteljes és általános keretet biztosít a statisztikai modellekhez, amely lehetővé teszi a komplex függőségek explicit ábrázolását, amit a hagyományos modellek nem képesek megoldani. A Bayes-i megközelítés különösen hasznos a nagy adatállományok előrejelzési bizonytalanságainak kezelésében, hiszen a modell paramétereit véletlenszerű változóként tekinti, amely az optimális tanulás során véletlenszerűséget vezet be.