Hva er forholdet mellom Maksimal Likelihood Estimering og Empirisk Risiko Minimisering?

Maksimal Likelihood Estimering (MLE) og Empirisk Risiko Minimisering (ERM) er to fundamentalt viktige metoder i maskinlæring som ofte fører til lignende løsninger, og til og med identiske løsninger under visse betingelser. Begge metodene har som mål å lære en funksjon som predikerer et ukjent mål $y$ basert på observasjoner av $x$ , der $(x, y)$ er uavhengig og identisk distribuert (i.i.d.) fra treningsdataene.

I MLE tilnærmingen, starter vi med å anta en form for den betingede sannsynlighetsfordelingen til $y$ gitt $x$ . Eksempler på slike fordeler kan være en Gaussisk eller Bernoulli fordeling, som fører til henholdsvis minst kvadraters regresjon og logistisk regresjon. Et sentralt poeng i MLE-tilnærmingen er at vi bruker modeller fra den eksponentielle familien av sannsynlighetsfordelinger, som inkluderer mange kjente distribusjoner som Gaussian og Bernoulli. Når vi bruker en fordeling fra den eksponentielle familien, får vi et MLE-optimaliseringsproblem som er konveks i prediksjonsfunksjonen $f$ . Dette gjør at eventuelle lokale minima også er globale, og sikrer at løsningen vi finner er optimal.

Når $p(y|x)$ tilhører den eksponentielle familien, kan sannsynligheten skrives som:

p(y|x) \propto \exp\left( -\ell(y, f(x)) \right)

Her er $\ell$ en tapsfunksjon, og $f(x)$ er en funksjon som tar input $x$ og produserer en prediksjon for $y$ . Maksimal Likelihood Estimering (MLE) kan da formulere seg som:

\max \sum_{i=1}^{n} \log p(y_i | x_i)

Ved å bruke den relevante funksjonen $\ell$ , finner vi den beste funksjonen $f$ som minimerer feilen mellom prediksjonene og de faktiske etikettene i treningssettet.

På den andre siden har vi Empirisk Risiko Minimisering (ERM), en vanlig tilnærming i maskinlæring, som også er designet for å minimere feilen mellom prediksjoner og faktiske etiketter. ERM er basert på en tapsfunksjon $\ell$ som måler uoverensstemmelsen mellom en etiket $y$ og en prediksjon $f(x)$ . Den empiriske risikoen er et gjennomsnitt av tapsfunksjonen over treningsdataene, og målet er å finne den funksjonen $f$ som minimerer denne risikoen:

\min \sum_{i=1}^{n} \ell(y_i, f(x_i))

Så, til tross for at MLE og ERM ser ut til å komme fra forskjellige teoretiske rammeverk, har de mange likheter. Når vi tilpasser en tapsfunksjon i ERM til en fordeling fra den eksponentielle familien, får vi et MLE-problem. Begge metodene fører dermed til et problem som kan løses ved konveks optimalisering, der $f(x)$ er den beste funksjonen som minimerer den gjennomsnittlige feilen.

For å forstå forskjellene mellom disse metodene, er det nyttig å tenke på hvordan vi velger tapsfunksjoner og hva slags modell vi ønsker å bruke for å beskrive dataene våre. For eksempel, i minst kvadraters regresjon, antar vi at feilen mellom prediksjoner og virkelige verdier følger en Gaussisk fordeling, mens i logistisk regresjon antar vi at $y$ følger en binomisk fordeling, som er passende for klassifikasjonsproblemer.

Som et konkret eksempel, kan vi vurdere et problem med lineær regresjon, der vi antar at etikettene $y_i$ er uavhengige og følger en Gaussisk fordeling betinget av $x_i$ , det vil si at $y_i \sim N(f_w(x_i), 1)$ . I dette tilfellet er log-likelihooden for $w$ gitt ved:

L(w) = -\sum_{i=1}^{n} \left( \frac{(y_i - f_w(x_i))^2}{2} \right) + C

Dette er en vanlig minst kvadrater problem, og MLE gir oss den optimale løsningen ved å minimere kvadratiske feil.

Generaliseringer av lineær regresjon til andre typer distribusjoner, som binomial, multinomial, Poisson, og andre, er vanlige i maskinlæring og kalles generelle lineære modeller (GLM). I slike tilfeller kan vi bruke en tapsfunksjon som er tilpasset fordelingene, men prinsippet forblir det samme.

Når det gjelder eksponentielle familier, er det verdt å merke seg at mange vanlige distribusjoner tilhører denne familien, som den Gaussiske, Poisson, binomiske og Bernoulli distribusjonen. Den generelle formen for sannsynlighetsfunksjonen i den eksponentielle familien er:

p(y|\theta) = b(y) \exp \left( \theta^T t(y) - a(\theta) \right)

Her er $\theta$ den naturlige parameteren, $t(y)$ den tilstrekkelige statistikken, og $a(\theta)$ er en normaliseringskonstant som sikrer at sannsynligheten summerer seg til 1. Det som er bemerkelsesverdig med denne familien, er at den resulterende log-likelihooden er konveks, noe som gjør at optimaliseringen blir lettere og kan løses effektivt.

Når vi anvender GLM på dataene våre, kan vi velge $\theta$ som en funksjon av $x$ , som i lineær regresjon, hvor $\theta = w^T x$ . Den tilhørende log-likelihooden kan derfor skrives som:

- \log p(y | \theta) = - \theta^T t(y) + a(\theta) - \log b(y)

Dette er en konveks funksjon, og optimaliseringen av denne funksjonen kan derfor gjøres ved hjelp av metoder for konveks optimering, som gjør at vi kan finne den beste løsningen raskt og effektivt.

Det er viktig å merke seg at valget av tapsfunksjon og modell er sentralt i hvordan vi bygger våre maskinlæringsmodeller. Dette valget påvirker hvordan vi estimerer parametrene, hvordan vi beregner risiko, og hvilke metoder vi bruker for optimalisering. I mange tilfeller kan MLE og ERM gi identiske løsninger, men forskjellen ligger i den underliggende teoretiske tilnærmingen og hvordan vi forstår og tolker dataene.

Hvordan oppnå minimal feilrate i klassifikasjon ved hjelp av Bayes-klasser og estimatorer

For å oppnå minimal feilrate i klassifikasjon, er det viktig å forstå hvordan feilen kan uttrykkes matematisk og hvordan man kan estimere de nødvendige parametrene for å bygge en optimal klassifikator. I dette tilfellet bruker vi et Bayesiansk rammeverk hvor målet er å finne en klassifikator som minimerer sannsynligheten for feilklassifikasjon.

Feilens sannsynlighet kan skrives som:

P(f^*(x) \neq y) = P(x^T\theta > 0|y = -1)P(y = -1) + P(x^T\theta < 0|y = +1)P(y = +1)

Dette uttrykket kan forenkles ved å bruke symmetrien i problemet, ettersom de to typene feil er like, og derfor kan vi redusere dette til:

P(f^*(x) \neq y) = P(x^T\theta > 0|y = -1)

P(z > \|\theta\|^2) \leq \frac{E[z^2]}{\|\theta\|^4} = \frac{1}{\|\theta\|^2}

Det betyr at vi har en øvre grense for feilklassifikasjonen:

P(f^*(x) \neq y) \leq \frac{1}{\|\theta\|^2}

Denne grensen gir mening, da feilen vil reduseres når avstanden mellom middelverdiene øker. Den eksakte avstanden mellom middelverdiene er $2\|\theta\|$ , og som et resultat bør feilen avta når $\|\theta\|$ øker.

Estimering av $\theta$ fra treningsdata

I praktisk anvendelse har vi ofte ikke den sanne verdien av $\theta$ , men bare et sett med treningsdata $\{(x_i, y_i)\}_{i=1}^n$ . Her antar vi at $x_i | y_i \sim N(y_i\theta, I)$ , som betyr at $x_i$ gitt $y_i$ er normalfordelt med middelverdi $y_i\theta$ og enhetlig varians. Estimatet for $\theta$ kan dermed beregnes som gjennomsnittet av $y_ix_i$ over treningssettet:

\hat{\theta} = \frac{1}{n} \sum_{i=1}^n y_ix_i

Dette gir oss en estimator for $\theta$ , som vi kan bruke til å klassifisere nye observasjoner med Bayes-kriteriet. Klassifikasjonsregelen blir dermed:

f(\hat{x}) = \begin{cases} +1 & \text{hvis } x^T \hat{\theta} > 0 \\ -1 & \text{hvis } x^T \hat{\theta} < 0

Hva er forholdet mellom Maksimal Likelihood Estimering og Empirisk Risiko Minimisering?

Hvordan oppnå minimal feilrate i klassifikasjon ved hjelp av Bayes-klasser og estimatorer

Estimering av $\theta$ fra treningsdata

Feilrate med estimert $\theta$

Histogram-klassifikator vs MVN Plug-in Klassifikator

Hva er forholdet mellom Maksimal Likelihood Estimering og Empirisk Risiko Minimisering?

Hvordan oppnå minimal feilrate i klassifikasjon ved hjelp av Bayes-klasser og estimatorer

Estimering av θ\thetaθ fra treningsdata

Feilrate med estimert θ\thetaθ

Histogram-klassifikator vs MVN Plug-in Klassifikator

Estimering av $\theta$ fra treningsdata

Feilrate med estimert $\theta$