En metode for å vekte settet Θ for å reflektere tidligere kunnskap om plausibiliteten til forskjellige θ (og dermed forskjellige p(x|θ)-modeller) er å plassere en priorfordeling på Θ. La p(θ) betegne en slik fordeling. Vi kan se på p(θ) som en ikke-negativ vektingsfunksjon over settet Θ og bruke denne vektingen til å modifisere optimaliseringen vår på følgende måte:

θ̂MAP = argmax p(x|θ)p(θ), hvor θ ∈ Θ.

Denne optimaliseringen vil gjerne favorisere løsninger der p(θ) er stor. Denne metoden kalles Maximum a Posteriori (MAP) estimator. Navnet MAP stammer fra det faktum at θ)p(θ) max | p(x| p(x θ)p(θ) = max θ∈Θ θ∈Θ p(x) = max p(θ|x) θ∈Θ, og p(θ|x) kalles den posterior fordelingen av θ gitt x.

I et konkret eksempel, for temperaturmålinger, antar vi at prioren har formen:

p(θ)={130hvis 30θ30160hvis 30<θ100p(θ) = \begin{cases} \frac{1}{30} & \text{hvis } -30 \leq θ \leq 30 \\ \frac{1}{60} & \text{hvis } 30 < |θ| \leq 100
\end{cases}

Med andre ord plasserer prioren dobbelt så stor sannsynlighet på verdier i intervallet [-30, 30]. I dette tilfellet vil |θ̂MAP| være mindre enn eller lik |θ̂MLE|. Dette kan lett verifiseres: Hvis likelihooden når sitt maksimum i intervallet [-30, 30], vil også den posterior sannsynlighetsfunksjonen gjøre det. Dersom maksimumet ligger utenfor dette området, vil maksimalverdien for posterioren kunne være på samme punkt eller et annet punkt i intervallet [-30, 30], takket være skaleringsfaktoren på 2 i dette området. Slik påvirker prioren estimatorene ved å favorisere lavere temperaturer.

Selv om bias vanligvis er uønsket, kan MAP-estimatoren også ha lavere varians (ettersom den kan redusere størrelsen på estimatet), og dermed kan den totale middelkvadratiske feilen (MSE) for MAP være mindre enn for MLE. Dette balansegangen mellom bias og varians vil vi komme tilbake til senere.

Eksempel: Twitter-overvåking

Anta at vi overvåker Twitter for omtaler av et bestemt emne eller hashtag. Hver time i n timer teller vi hvor mange tweets som er lagt ut om emnet. La x = (x1, . . . , xn) være disse tellingene. Vi antar at tellingene er uavhengige og identisk fordelte (i.i.d.). Poisson-fordelingen er et rimelig modell for disse dataene:

p(xθ)=i=1nθxieθxi!p(x|\theta) = \prod_{i=1}^{n} \frac{\theta^{x_i} e^{ -\theta}}{x_i!}

Her er parameteren θ gjennomsnittet for Poisson-fordelingen, og MLE-estimatet er gitt ved:

θ^MLE=1ni=1nxi\hat{\theta}_{MLE} = \frac{1}{n} \sum_{i=1}^{n} x_i

La oss nå anta at vi har noe forhåndskunnskap om hvor populært emnet er – for eksempel om det er et hett og trendende tema (som tilsier en stor θ) eller et sjeldent tema (som tilsier en liten θ). Vi kan representere denne kunnskapen med en eksponentiell priorfordeling:

p(θ)=αeαθ,α>0p(\theta) = \alpha e^{ -\alpha \theta}, \quad \alpha > 0

Jo større verdien av α er, desto raskere avtar priorens tetthetsfunksjon fra 0. Når α nærmer seg 0, vil prioren bli nærmest en uniform fordeling. Posteriorfordelingen er da:

p(θx)αeαθeθi=1nθxixi!p(\theta|x) \propto \alpha e^{ -\alpha \theta} e^{ -\theta} \prod_{i=1}^{n} \frac{\theta^{x_i}}{x_i!}

Minimering av log-likelihooden med hensyn til θ gir MAP-estimatoren:

θ^MAP=1n+αi=1nxi\hat{\theta}_{MAP} = \frac{1}{n + \alpha} \sum_{i=1}^{n} x_i

Vi ser at MAP-estimatoren er en "skalert" versjon av MLE, det vil si at den er trukket mot 0 med en faktor på n / (n + α). Når utvalgsstørrelsen n vokser, konvergerer MAP-estimatoren til MLE. Dette viser en viktig egenskap: prioren spiller en betydelig rolle bare når utvalgsstørrelsen er relativt liten. Denne "shrinking"-effekten kan være ønskelig dersom vi for eksempel bare teller i et begrenset tidsintervall og tror at antallet tweets vil være relativt lavt.

Bias-varians-dekomponering

For å forstå dette bedre, betrakt bias-varians-dekomponeringen av middelkvadratfeilen (MSE). Hvis θ̂ betegner en hvilken som helst estimator av den sanne verdien θ, så har MSE:

MSE(θ^)=E[(θθ^)2]=(θE[θ^])2+E[(E[θ^]θ^)2]MSE(\hat{\theta}) = E[(\theta - \hat{\theta})^2] = (\theta - E[\hat{\theta}])^2 + E[(E[\hat{\theta}] - \hat{\theta})^2]

For MLE har vi:

E[θ^MLE]=θ,V[θ^MLE]=θnE[\hat{\theta}_{MLE}] = \theta, \quad V[\hat{\theta}_{MLE}] = \frac{\theta}{n}

Derimot, for MAP estimering:

E[θ^MAP]=nn+αθ,V[θ^MAP]=θn+αE[\hat{\theta}_{MAP}] = \frac{n}{n + \alpha} \theta, \quad V[\hat{\theta}_{MAP}] = \frac{\theta}{n + \alpha}

Dette betyr at variansen for MAP-estimatoren er mindre enn for MLE, men den er biased. Biasen kan beregnes som:

Bias2=(θnn+αθ)2=α2(n+α)2θ2\text{Bias}^2 = \left(\theta - \frac{n}{n + \alpha} \theta \right)^2 = \frac{\alpha^2}{(n + \alpha)^2} \theta^2

Til slutt kan MSE for de to estimatorene sammenlignes:

MSE(θ^MLE)=θ2n,MSE(θ^MAP)=θ2n+αMSE(\hat{\theta}_{MLE}) = \frac{\theta^2}{n}, \quad MSE(\hat{\theta}_{MAP}) = \frac{\theta^2}{n + \alpha}

Ved å finne den optimale verdien for α, kan vi minimere MSE, og for store verdier av θ bør vi bruke MLE.

Viktige betraktninger

En viktig innsikt er at selv om MAP kan gi bedre resultater når vi har liten data, kan den også introdusere en bias. Dette kan være ønskelig i visse situasjoner der vi har lite informasjon og ønsker å unngå overtilpasning. I tilfeller med stor datamengde vil MLE være mer nøyaktig, ettersom effekten av prioren reduseres. Den mest fordelaktige estimatoren avhenger dermed av både priorinformasjonen vi har, samt størrelsen på datasettet vårt.

Hvordan forstå funksjonsrom i maskinlæring og generaliseringsteoremer

Når man arbeider med maskinlæring, er en viktig utfordring å finne en funksjon som kan minimere tapet (loss) på et treningsdatasett. En vanlig tilnærming for å løse dette problemet er å benytte seg av empirisk risikominimering, der man forsøker å finne en funksjon som best tilpasser seg dataene. Den grunnleggende formen for dette problemet er å minimere summen av tapene på treningsdataene, hvor funksjonen tilhører et bestemt funksjonsrom. Et slikt rom kan defineres som en samling av funksjoner som deler en viss egenskap, som normbegrensning.

For eksempel, i tilfelle lineære klassifikatorer i et rom med dimensjon dd, kan funksjonsrommet FF være definert som mengden av alle homogene lineære funksjoner på Rd\mathbb{R}^d, gitt ved f(x)=wTxf(x) = w^T x, hvor wRdw \in \mathbb{R}^d. For å begrense rommet ytterligere, kan vi introdusere en normbegrensning på ww, og definere et funksjonsrom som FB={f:f(x)=wTx,wB}F_B = \{ f : f(x) = w^T x, \|w\| \leq B \}, der BB er en konstant som begrenser størrelsen på vektene.

Ved å løse dette optimeringsproblemet, får vi en funksjon som best mulig tilpasser seg treningsdataene, samtidig som vi holder vektene innenfor den definerte normen. Dette kan også uttrykkes som et regulært optimeringsproblem, hvor et tilleggsterme på formen λBw\lambda_B \|w\| er lagt til for å hindre overtilpasning (overfitting).

Normer spiller en viktig rolle i hvordan funksjoner blir definert og brukt i maskinlæring. En norm på en funksjon, for eksempel f\|f\|, er et mål på størrelsen eller kompleksiteten til funksjonen. Normer kan definere rom av funksjoner som enten er parametrisert av en vektvektor ww eller har spesifikke egenskaper, som kontinuitet eller glatthet. Eksempler på vanlige normer inkluderer f2=f(x)2dx\|f\|_2 = \sqrt{\int |f(x)|^2 dx}, som kan brukes til å definere funksjonsrom i forskjellige settinger.