Hva er den generelle tilnærmingen for å modellere betingede distribusjoner i binær og multiklassifikasjon?

For å forstå de grunnleggende prinsippene bak generelle lineære modeller (GLM), er det viktig å begynne med det enkleste tilfellet – binær klassifikasjon. I binær klassifikasjon ønsker vi å modellere sannsynligheten for at en variabel $y$ tar en av to mulige verdier (for eksempel $y = 1$ eller $y = -1$ ) gitt en sett med prediktorer $x$ . Dette kan gjøres ved å bruke en logistisk regresjon, hvor vi antar at sannsynligheten for et gitt utfall $y$ er koblet til de lineære prediktorene $w^T x$ gjennom den logistiske funksjonen.

Logistisk regresjon

I binær logistisk regresjon, for enkelhets skyld, bruker vi de binære etikettene $\pm 1$ i stedet for $0$ og $1$ , slik at $y$ blir omformet til $y \rightarrow 2y - 1$ . Dette fører til følgende sannsynlighet:

\log p(y | \theta) = \log \left( 1 + e^{ -y\theta} \right)

Dette kan tolkes som en modell der den naturlige parameteren $\theta$ er lik en lineær funksjon av funksjonene i $x$ , altså $\theta = w^T x$ . Videre vil vi anta at vi har uavhengige og identisk fordelte (iid) eksempler $\{(x_i, y_i)\}_{i=1}^n$ , og at vi kan modellere $y_i$ som en Bernoulli-fordeling med etikettene $\pm 1$ . Den maksimale sannsynlighetsestimatoren for vektoren $w$ kan finnes som løsningen til følgende optimaliseringsproblem:

\sum_{i=1}^n \min \log \left( 1 + e^{ -y_i w^T x_i} \right)

Når $\hat{w}$ er løsningen, kan den predikerte etiketten for en ny $x$ finnes ved:

\hat{y} = \text{sign}(\hat{w}^T x)

Denne optimaliseringen kalles logistisk regresjon, og den funksjonen $f(\theta) = \log \left( \frac{1}{1 + e^{ -\theta}} \right)$ er kjent som den logistiske funksjonen, mens funksjonen $\ell(\theta) = \log(1 + e^{ -\theta})$ er den logistiske tapsfunksjonen. Det er verdt å merke seg at den logistiske tapsfunksjonen er konveks i $\theta$ , noe som gjør den lett å optimere. Dette kan vises ved at den andre derivert av $\ell(\theta)$ er:

\frac{d^2}{d\theta^2} \ell(\theta) = \frac{e^{ -\theta}}{(1 + e^{ -\theta})^2} \geq 0

Multinomial logistisk regresjon

Når vi utvider modellen til multiklassifikasjon, håndterer vi situasjoner der $y$ kan ta flere verdier, for eksempel $y = 1, 2, \dots, K$ . For å modellere denne typen problem bruker vi en multiklass logistisk regresjon, hvor $y$ er en tilfeldig variabel som tar verdi $k$ med sannsynlighet $P(y = k) = q_k$ . For å beskrive denne sannsynligheten kan vi bruke en logit-modell, også kjent som softmax-funksjonen. Likelydelsen $p(y | q_1, \dots, q_K)$ for de forskjellige klassene er:

p(y | q_1, \dots, q_K) = \sum_{k=1}^K 1\{y=k\} q_k = \exp(\theta^T t(y)) - a(\theta)

Hvor $\theta$ er vektoren for de forskjellige klassene, og $t(y)$ er den "one-hot" vektoren som representerer klassen til $y$ . For å sikre at sannsynlighetene summerer til 1, omformer vi $q_k$ ved hjelp av den normerte softmax-funksjonen:

q_k = \frac{e^{\theta_k}}{\sum_{m=1}^K e^{\theta_m}}

Denne parametrisering sikrer at vi får en valid sannsynlighetsfordeling. Videre, ved å omformulere likelydelsen i form av $\theta$ , får vi en log-likelihood som kan skrives som:

L(\theta) = \log \left( \sum_{k=1}^K e^{\theta_k} \right)

Denne formen er en klassisk fremstilling av multinomial logistisk regresjon. Hvis vi antar at $x$ er en vektor med prediktorer og $w_k$ er vektene for den $k$ -te klassen, kan vi bruke den lineære modellen $\theta_k = w_k^T x$ , og den predikerte etiketten for en ny $x$ blir:

\hat{y} = \arg\max_{k \in \{1, \dots, K\}} w_k^T x

Konveksitet og optimalisering

I både binær og multinomial logistisk regresjon, ser vi at tapsfunksjonene er konvekse i forhold til $w$ , noe som betyr at vi kan bruke gradientbaserte metoder, som gradient descent, for å finne den optimale løsningen. For begge modellene er målet å minimere et tap basert på log-likelihood, og ettersom disse funksjonene er konvekse, vil de sikre at vi finner en global minimum.

Viktige prinsipper for GLM

En nøkkelfunksjon i GLM er at den naturlige parameteren $\theta$ er en lineær funksjon av $x$ . Dette betyr at modellen kan generalisere til flere typer distribusjoner, avhengig av hvilken type tapsfunksjon som brukes, som for eksempel kvadratisk tap for regresjon eller logistisk tap for binær klassifikasjon. Det er viktig å merke seg at de mest brukte tapsfunksjonene for klassifikasjon (logistisk, hinge) er konvekse, noe som gjør dem lettere å optimalisere i praktiske maskinlæringsapplikasjoner.

Den grunnleggende strukturen til GL

Hvordan Empirisk Risikominsimering og PAC-læring Fungerer i Ulike Modellklasser

I maskinlæring er målet med å trene en modell å minimere den forventede tapet eller risikoen som modellen påfører når den gjør forutsigelser. Dette er ofte formulert som å minimere den empiriske risikoen, som er summen av tapene på treningsdataene. Empirisk risikominsimering (ERM) er en metode som prøver å finne en modell som minimerer denne summen av tapene. Selv om dette virker som en fornuftig tilnærming, er det ikke alltid like enkelt å sikre at den valgte modellen vil ha lav risiko på nye, ikke-sett data. PAC-læring (Probably Approximately Correct) gir en ramme for å forstå hvordan vi kan stole på at en modell som er trent på en begrenset mengde data, vil ha god ytelse på nye data.

I utgangspunktet antar PAC-læring at treningsdataene er uavhengige og identisk fordelte (i.i.d.) prøver fra en ukjent sannsynlighetsfordeling $P$ . Målet er å velge en prediktor $f$ fra en modellklasse $F$ som minimerer den forventede risikoen $R(f)$ . Dette kan uttrykkes som $\min_{f \in F} E_{(x, y) \sim P}[\ell(y, f(x))]$ , der $\ell$ er tapsfunksjonen, og $f(x)$ er prediksjonen for input $x$ . Den empiriske risikoen $\hat{R}(f)$ er den faktiske risikoen beregnet på treningsdataene, som vi ønsker å minimere.

ERM forsøker å finne den modellen $f$ som minimerer summen av tapene på treningsdataene:

\hat{f} = \arg\min_{f \in F} \sum_{i=1}^n \ell(y_i, f(x_i))

Her er $\hat{f}$ den empiriske risikominsimereren. Når antall treningsdata $n$ er stort, konvergerer den empiriske risikoen $\hat{R}(f)$ mot den sanne risikoen $R(f)$ , ettersom tapene $\ell(y_i, f(x_i))$ er uavhengige og identisk fordelte.

Men hvordan kan vi være sikre på at $\hat{f}$ ikke bare er bra for treningsdataene, men også generaliserer godt til nye data? Dette er der PAC-læring kommer inn. Ved å bruke Markovs ujevnhet kan vi sette en øvre grense på hvordan mye den empiriske risikoen $\hat{R}(f)$ kan avvike fra den sanne risikoen $R(f)$ . En strengere grense kan oppnås ved hjelp av Chernoffs ujevne grenser, som gir en eksponentiell nedgang i sannsynligheten for at den empiriske risikoen avviker betydelig fra den sanne risikoen. Dette betyr at, med høy sannsynlighet, vil den valgte modellen $\hat{f}$ ikke avvike mye fra den beste mulige modellen $f^*$ , den som minimerer den sanne risikoen $R(f)$ .

For å være mer presis, kan vi vise at hvis $\hat{f}$ er den empiriske risikominsimereren, så vil forskjellen mellom den sanne risikoen $R(f^*)$ og $R(\hat{f})$ være liten med høy sannsynlighet, gitt et tilstrekkelig antall treningsdata. Dette innebærer at vi kan være ganske sikre på at $\hat{f}$ er en "god" modell, som gir en lav risiko, selv om vi ikke har tilgang til hele den sanne distribusjonen $P$ .

Det er viktig å merke seg at hvor raskt feilen i generalisering avtar, avhenger av flere faktorer. Først og fremst er det størrelsen på modellklassen $F$ . Hvis $F$ er stor, må vi kanskje ha et mye større antall treningsdata for å oppnå en god generalisering. Dette er grunnen til at vi ofte ser at PAC-læring gir bedre resultater når modellklassene er små eller velstrukturert, ettersom det er lettere å generalisere fra et mindre sett av mulige modeller.

En annen viktig faktor er kompleksiteten til tapsfunksjonen $\ell$ . Hvis tapsfunksjonen er svært kompleks eller har et stort antall parameter, kan det være vanskeligere å generalisere godt, selv med mange treningsdata. Det er derfor viktig å velge tapsfunksjoner som balanserer kompleksitet og generaliseringsevne.

I tilfeller der modellklassen $F$ er uendelig, som i tilfelle av lineære klassifikatorer, kan PAC-læring fortsatt anvendes, men vi trenger å bruke begrepet "shatter coefficient" for å beskrive hvordan mange unike inndelinger av dataene kan utføres ved hjelp av hyperplaner. Antall forskjellige etiketter som kan opprettes for $n$ punkter i $d$ -dimensjonale rom ved hjelp av hyperplaner kan være veldig stort, men er fortsatt begrenset. Dette er et viktig resultat når vi håndterer uendelige modellklasser, da det hjelper oss å forstå hvordan generaliseringsevnen oppfører seg selv om vi har uendelig mange potensielle modeller.

Ved å bruke PAC-læring kan vi derfor oppnå en forståelse av hvordan og hvorfor modeller fungerer godt på dataene de er trent på, og hvordan de sannsynligvis vil prestere på nye, ikke-sett data. Den teoretiske rammen gir sterke garantier for modellens generalisering, basert på størrelsen på treningssettet, kompleksiteten til modellklassen og kvaliteten på tapsfunksjonen.

Hvordan tangoen utviklet seg fra dens gullalder til dagens moderne uttrykk
Hva var Laemmels hemmelighet, og hvilken betydning hadde hans advarsel?
Hvordan lage en klassisk tomatsuppe med fennikel og paprika
Hvordan kan blokkjedeteknologi forbedre ulike bransjer?