Hvordan priorforventninger påvirker estimater: MAP vs MLE

En metode for å vekte settet Θ for å reflektere tidligere kunnskap om plausibiliteten til forskjellige θ (og dermed forskjellige p(x|θ)-modeller) er å plassere en priorfordeling på Θ. La p(θ) betegne en slik fordeling. Vi kan se på p(θ) som en ikke-negativ vektingsfunksjon over settet Θ og bruke denne vektingen til å modifisere optimaliseringen vår på følgende måte:

θ̂MAP = argmax p(x|θ)p(θ), hvor θ ∈ Θ.

Denne optimaliseringen vil gjerne favorisere løsninger der p(θ) er stor. Denne metoden kalles Maximum a Posteriori (MAP) estimator. Navnet MAP stammer fra det faktum at θ)p(θ) max | p(x| p(x θ)p(θ) = max θ∈Θ θ∈Θ p(x) = max p(θ|x) θ∈Θ, og p(θ|x) kalles den posterior fordelingen av θ gitt x.

I et konkret eksempel, for temperaturmålinger, antar vi at prioren har formen:

p(θ) = \begin{cases} \frac{1}{30} & \text{hvis } -30 \leq θ \leq 30 \\ \frac{1}{60} & \text{hvis } 30 < |θ| \leq 100

Det finnes flere måter å konstruere funksjonsrom på, og en grunnleggende tilnærming er å bruke parametiske klasser av funksjoner. Dette kan være lineære funksjoner, polynomfunksjoner eller til og med nevrale nettverk. Et eksempel på et parametisk funksjonsrom kan være et enkelt to-lags nevralt nettverk, hvor funksjonen har formen:

f(x) = \sum_{k=1}^{K} v_k \phi(w_k^T x + b_k)

Her er $\phi$ en fast aktiveringsfunksjon (som ReLU), og $w_k$ , $v_k$ , $b_k$ er de lærbare parameterne. Vi kan videre begrense dette rommet ved å sette betingelser på størrelsen av vektene og biasene.

En annen tilnærming er å bruke atomiske funksjonsklasser. I en slik klasse kan vi ha funksjoner som er parameterisert av en vekt $w$ , hvor $w$ tilhører en mengde $W$ , og hver funksjon $\phi_w(x)$ i klassen kan sees som et "atom". For eksempel kan nevronelementene i et nevralt nettverk betraktes som slike atomer. Dette åpner for en mer generell måte å konstruere funksjonsrom på, som ikke nødvendigvis er begrenset til et endelig antall parametere.

I tillegg til parametiske og atomiske funksjonsklasser finnes det også ikke-parametiske klasser, hvor funksjonene ikke er eksplisitt parameterisert. Et eksempel på dette er klassen av kontinuerlige funksjoner på intervallet $[0, 1]$ , som kan beskrives ved en norm som $\|f\|_{C^0} = \sup_{x \in [0,1]} |f(x)|$ . Det finnes også høyere ordens normer, for eksempel $\|f\|_{C^k} = \sup_{x \in [0,1]} |f^{(k)}(x)|$ , som beskriver klasser av funksjoner med kontinuerlige deriverte.

Den viktigste innsikten fra disse forskjellige måtene å konstruere funksjonsrom på er at maskinlæring ofte innebærer å finne et kompromiss mellom å tilpasse seg treningsdataene godt (minimere tapet) og å kontrollere kompleksiteten til funksjonen for å unngå overtilpasning. Dette er grunnen til at normer spiller en så viktig rolle i optimeringen, ettersom de hjelper oss å kontrollere størrelsen på funksjonene vi vurderer.

En annen viktig aspekt ved funksjonsrom og normer er deres betydning for generalisering. En viktig teorem i statistikk og maskinlæring er at større funksjonsrom kan føre til bedre tilpasning til treningsdataene, men kan også øke risikoen for overtilpasning. På den andre siden kan et begrenset funksjonsrom hindre modellen fra å fange opp viktige mønstre i dataene. For å adressere dette har vi generaliseringsteoremer, som gir oss grenser på hvordan godt en modell på et gitt funksjonsrom kan generalisere til nye, ukjente data.

Når man definerer funksjonsrom i maskinlæring, er det derfor viktig å balansere tilpasning til treningsdataene med evnen til å generalisere til nye data. Å bruke normer på funksjonene i rommet er en måte å styre denne balansen på.

Hvordan finne kvalitetskjøkken i USA: et overblikk over produsenter og distributører
Hvordan lage iskremskake uten steking: En klassisk oppskrift på enkle og smakfulle desserter
Hvordan forstå hydrodynamikk i flerbruks kyst- og offshore-strukturer

Innholdet på dette nettstedet er beskyttet av gjeldende lover om opphavsrett, inkludert, men ikke begrenset til, åndsverkloven og relevant lovgivning i Den europeiske union. All bruk av innholdet, inkludert reproduksjon, distribusjon, offentlig visning, endring eller annen bearbeiding, er forbudt uten forhåndsskrevet samtykke fra rettighetshaveren, med mindre annet er uttrykkelig tillatt ved lov. Brukere har kun tillatelse til å bruke innholdet til personlig bruk innenfor rammen som er definert av opphavsrettslovgivningen. All annen bruk, inkludert kommersiell bruk, krever forhåndsskrevet tillatelse fra rettighetshaveren. Varemerker, handelsnavn, logoer og andre kjennetegn som vises på dette nettstedet kan være registrerte varemerker som tilhører sine respektive eiere. Enhver bruk uten tillatelse fra den aktuelle rettighetshaveren er forbudt. Nettstedets operatør garanterer ikke for nøyaktigheten, fullstendigheten eller oppdatertheten av den oppgitte informasjonen og er ikke ansvarlig for eventuelle skader eller tap som følge av bruken, med mindre annet kreves etter ufravikelige lovbestemmelser.

Reproduksjon av materiale er kun tillatt dersom en lenke til pandia.org er inkludert.

For best visningsopplevelse anbefales det å bruke nettstedet på skjermer med en minimumsbredde på 1200 piksler.

Hvordan priorforventninger påvirker estimater: MAP vs MLE

Eksempel: Twitter-overvåking

Bias-varians-dekomponering

Viktige betraktninger