Maksimal Likelihood Estimering (MLE) og Empirisk Risiko Minimisering (ERM) er to fundamentalt viktige metoder i maskinlæring som ofte fører til lignende løsninger, og til og med identiske løsninger under visse betingelser. Begge metodene har som mål å lære en funksjon som predikerer et ukjent mål yy basert på observasjoner av xx, der (x,y)(x, y) er uavhengig og identisk distribuert (i.i.d.) fra treningsdataene.

I MLE tilnærmingen, starter vi med å anta en form for den betingede sannsynlighetsfordelingen til yy gitt xx. Eksempler på slike fordeler kan være en Gaussisk eller Bernoulli fordeling, som fører til henholdsvis minst kvadraters regresjon og logistisk regresjon. Et sentralt poeng i MLE-tilnærmingen er at vi bruker modeller fra den eksponentielle familien av sannsynlighetsfordelinger, som inkluderer mange kjente distribusjoner som Gaussian og Bernoulli. Når vi bruker en fordeling fra den eksponentielle familien, får vi et MLE-optimaliseringsproblem som er konveks i prediksjonsfunksjonen ff. Dette gjør at eventuelle lokale minima også er globale, og sikrer at løsningen vi finner er optimal.

Når p(yx)p(y|x) tilhører den eksponentielle familien, kan sannsynligheten skrives som:

p(yx)exp((y,f(x)))p(y|x) \propto \exp\left( -\ell(y, f(x)) \right)

Her er \ell en tapsfunksjon, og f(x)f(x) er en funksjon som tar input xx og produserer en prediksjon for yy. Maksimal Likelihood Estimering (MLE) kan da formulere seg som:

maxi=1nlogp(yixi)\max \sum_{i=1}^{n} \log p(y_i | x_i)

Ved å bruke den relevante funksjonen \ell, finner vi den beste funksjonen ff som minimerer feilen mellom prediksjonene og de faktiske etikettene i treningssettet.

På den andre siden har vi Empirisk Risiko Minimisering (ERM), en vanlig tilnærming i maskinlæring, som også er designet for å minimere feilen mellom prediksjoner og faktiske etiketter. ERM er basert på en tapsfunksjon \ell som måler uoverensstemmelsen mellom en etiket yy og en prediksjon f(x)f(x). Den empiriske risikoen er et gjennomsnitt av tapsfunksjonen over treningsdataene, og målet er å finne den funksjonen ff som minimerer denne risikoen:

mini=1n(yi,f(xi))\min \sum_{i=1}^{n} \ell(y_i, f(x_i))

Så, til tross for at MLE og ERM ser ut til å komme fra forskjellige teoretiske rammeverk, har de mange likheter. Når vi tilpasser en tapsfunksjon i ERM til en fordeling fra den eksponentielle familien, får vi et MLE-problem. Begge metodene fører dermed til et problem som kan løses ved konveks optimalisering, der f(x)f(x) er den beste funksjonen som minimerer den gjennomsnittlige feilen.

For å forstå forskjellene mellom disse metodene, er det nyttig å tenke på hvordan vi velger tapsfunksjoner og hva slags modell vi ønsker å bruke for å beskrive dataene våre. For eksempel, i minst kvadraters regresjon, antar vi at feilen mellom prediksjoner og virkelige verdier følger en Gaussisk fordeling, mens i logistisk regresjon antar vi at yy følger en binomisk fordeling, som er passende for klassifikasjonsproblemer.

Som et konkret eksempel, kan vi vurdere et problem med lineær regresjon, der vi antar at etikettene yiy_i er uavhengige og følger en Gaussisk fordeling betinget av xix_i, det vil si at yiN(fw(xi),1)y_i \sim N(f_w(x_i), 1). I dette tilfellet er log-likelihooden for ww gitt ved:

L(w)=i=1n((yifw(xi))22)+CL(w) = -\sum_{i=1}^{n} \left( \frac{(y_i - f_w(x_i))^2}{2} \right) + C

Dette er en vanlig minst kvadrater problem, og MLE gir oss den optimale løsningen ved å minimere kvadratiske feil.

Generaliseringer av lineær regresjon til andre typer distribusjoner, som binomial, multinomial, Poisson, og andre, er vanlige i maskinlæring og kalles generelle lineære modeller (GLM). I slike tilfeller kan vi bruke en tapsfunksjon som er tilpasset fordelingene, men prinsippet forblir det samme.

Når det gjelder eksponentielle familier, er det verdt å merke seg at mange vanlige distribusjoner tilhører denne familien, som den Gaussiske, Poisson, binomiske og Bernoulli distribusjonen. Den generelle formen for sannsynlighetsfunksjonen i den eksponentielle familien er:

p(yθ)=b(y)exp(θTt(y)a(θ))p(y|\theta) = b(y) \exp \left( \theta^T t(y) - a(\theta) \right)

Her er θ\theta den naturlige parameteren, t(y)t(y) den tilstrekkelige statistikken, og a(θ)a(\theta) er en normaliseringskonstant som sikrer at sannsynligheten summerer seg til 1. Det som er bemerkelsesverdig med denne familien, er at den resulterende log-likelihooden er konveks, noe som gjør at optimaliseringen blir lettere og kan løses effektivt.

Når vi anvender GLM på dataene våre, kan vi velge θ\theta som en funksjon av xx, som i lineær regresjon, hvor θ=wTx\theta = w^T x. Den tilhørende log-likelihooden kan derfor skrives som:

logp(yθ)=θTt(y)+a(θ)logb(y)- \log p(y | \theta) = - \theta^T t(y) + a(\theta) - \log b(y)

Dette er en konveks funksjon, og optimaliseringen av denne funksjonen kan derfor gjøres ved hjelp av metoder for konveks optimering, som gjør at vi kan finne den beste løsningen raskt og effektivt.

Det er viktig å merke seg at valget av tapsfunksjon og modell er sentralt i hvordan vi bygger våre maskinlæringsmodeller. Dette valget påvirker hvordan vi estimerer parametrene, hvordan vi beregner risiko, og hvilke metoder vi bruker for optimalisering. I mange tilfeller kan MLE og ERM gi identiske løsninger, men forskjellen ligger i den underliggende teoretiske tilnærmingen og hvordan vi forstår og tolker dataene.

Hvordan oppnå minimal feilrate i klassifikasjon ved hjelp av Bayes-klasser og estimatorer

For å oppnå minimal feilrate i klassifikasjon, er det viktig å forstå hvordan feilen kan uttrykkes matematisk og hvordan man kan estimere de nødvendige parametrene for å bygge en optimal klassifikator. I dette tilfellet bruker vi et Bayesiansk rammeverk hvor målet er å finne en klassifikator som minimerer sannsynligheten for feilklassifikasjon.

Feilens sannsynlighet kan skrives som:

P(f(x)y)=P(xTθ>0y=1)P(y=1)+P(xTθ<0y=+1)P(y=+1)P(f^*(x) \neq y) = P(x^T\theta > 0|y = -1)P(y = -1) + P(x^T\theta < 0|y = +1)P(y = +1)

Dette uttrykket kan forenkles ved å bruke symmetrien i problemet, ettersom de to typene feil er like, og derfor kan vi redusere dette til:

P(f(x)y)=P(xTθ>0y=1)P(f^*(x) \neq y) = P(x^T\theta > 0|y = -1)

Forutsetningen her er at xTθy=1N(θ2,θ2)x^T\theta | y = -1 \sim N(-\|\theta\|^2, \|\theta\|^2), noe som betyr at feilsannsynligheten er lik sannsynligheten for at en normalfordelt variabel med middelverdi 0 og varians θ2\|\theta\|^2 overskrider θ\|\theta\|. Denne feilen kan øvre grenses med Markovs ulikhet, som gir oss:

P(z>θ2)E[z2]θ4=1θ2P(z > \|\theta\|^2) \leq \frac{E[z^2]}{\|\theta\|^4} = \frac{1}{\|\theta\|^2}

Det betyr at vi har en øvre grense for feilklassifikasjonen:

P(f(x)y)1θ2P(f^*(x) \neq y) \leq \frac{1}{\|\theta\|^2}

Denne grensen gir mening, da feilen vil reduseres når avstanden mellom middelverdiene øker. Den eksakte avstanden mellom middelverdiene er 2θ2\|\theta\|, og som et resultat bør feilen avta når θ\|\theta\| øker.

Estimering av θ\theta fra treningsdata

I praktisk anvendelse har vi ofte ikke den sanne verdien av θ\theta, men bare et sett med treningsdata {(xi,yi)}i=1n\{(x_i, y_i)\}_{i=1}^n. Her antar vi at xiyiN(yiθ,I)x_i | y_i \sim N(y_i\theta, I), som betyr at xix_i gitt yiy_i er normalfordelt med middelverdi yiθy_i\theta og enhetlig varians. Estimatet for θ\theta kan dermed beregnes som gjennomsnittet av yixiy_ix_i over treningssettet:

θ^=1ni=1nyixi\hat{\theta} = \frac{1}{n} \sum_{i=1}^n y_ix_i

Dette gir oss en estimator for θ\theta, som vi kan bruke til å klassifisere nye observasjoner med Bayes-kriteriet. Klassifikasjonsregelen blir dermed:

f(x^)={+1hvis xTθ^>01hvis xTθ^<0f(\hat{x}) = \begin{cases} +1 & \text{hvis } x^T \hat{\theta} > 0 \\ -1 & \text{hvis } x^T \hat{\theta} < 0
\end{cases}

Feilrate med estimert θ\theta

Når vi bruker det estimerte θ^\hat{\theta} i stedet for den sanne θ\theta, har vi en ny teststatistikk xTθ^x^T\hat{\theta} som ikke følger en så enkel distribusjon som den optimale statistikken xTθx^T\theta, ettersom både xx og θ^\hat{\theta} er stokastiske. Likevel er det viktig å merke seg at disse variablene er uavhengige av hverandre, ettersom vi antar at den nye testobservasjonen xx er uavhengig av treningsdataene.

Både xx og θ^\hat{\theta} følger normalfordelinger, der xN(θ,I)x \sim N(-\theta, I) og θ^N(θ,I/n)\hat{\theta} \sim N(\theta, I/n). Derfor kan vi utvide teststatistikken til:

xTθ^=(θ+e1)T(θ+e2)=θ2+(e1e2)Tθ+e1Te2x^T\hat{\theta} = (-\theta + e_1)^T (\theta + e_2) = -\|\theta\|^2 + (e_1 - e_2)^T \theta + e_1^T e_2

Feilklassifikasjonen kan dermed skrives som:

P(f(x^)y)=P(θ2+(e1e2)Tθ+e1Te2>θ2)P(f(\hat{x}) \neq y) = P\left(-\|\theta\|^2 + (e_1 - e_2)^T \theta + e_1^T e_2 > \|\theta\|^2\right)

Ved å bruke Markovs ulikhet kan vi sette en øvre grense for feilraten:

P(f(x^)y)(1+1/n)θ2+d/nθ2P(f(\hat{x}) \neq y) \leq \frac{(1 + 1/n)\|\theta\|^2 + d/n}{\|\theta\|^2}

Her ser vi at feilen reduseres etter hvert som størrelsen på treningssettet nn øker, spesielt når ndn \gg d, da dette gir oss en øvre grense som er lik den vi hadde for den Bayesianske klassifikatoren. Dette er en indikasjon på at feilraten kan minimeres effektivt med tilstrekkelig treningsdata.

Histogram-klassifikator vs MVN Plug-in Klassifikator

Mens histogramklassifikatoren kan oppnå optimal ytelse i enhver situasjon med tilstrekkelig treningsdata, gjør den såkalte MVN (Multivariat Normal) Plug-in-klassifikatoren det samme, men med sterke forutsetninger om treningsdataene. Hvis de betingede sannsynlighetene for klassene er MVN med kjente kovariansmatriser, vil MVN Plug-in klassifikatoren oppnå resultater som er nær de optimale, spesielt når n>dn > d (antall treningsdata er større enn dimensjonen på funksjonsrommet). Histogramklassifikatoren vil derimot kreve mye mer data i samme situasjon, og dens ytelse vil lide på grunn av den såkalte dimensjonalitetsforbannelsen (curse of dimensionality). Denne problematikken betyr at histogramklassifikatorer vanligvis bare brukes i lavdimensjonale problemer, mens i høyere dimensjoner kan metoder basert på sterke modellforutsetninger gi bedre resultater.