For å forstå de grunnleggende prinsippene bak generelle lineære modeller (GLM), er det viktig å begynne med det enkleste tilfellet – binær klassifikasjon. I binær klassifikasjon ønsker vi å modellere sannsynligheten for at en variabel yy tar en av to mulige verdier (for eksempel y=1y = 1 eller y=1y = -1) gitt en sett med prediktorer xx. Dette kan gjøres ved å bruke en logistisk regresjon, hvor vi antar at sannsynligheten for et gitt utfall yy er koblet til de lineære prediktorene wTxw^T x gjennom den logistiske funksjonen.

Logistisk regresjon

I binær logistisk regresjon, for enkelhets skyld, bruker vi de binære etikettene ±1\pm 1 i stedet for 00 og 11, slik at yy blir omformet til y2y1y \rightarrow 2y - 1. Dette fører til følgende sannsynlighet:

logp(yθ)=log(1+eyθ)\log p(y | \theta) = \log \left( 1 + e^{ -y\theta} \right)

Dette kan tolkes som en modell der den naturlige parameteren θ\theta er lik en lineær funksjon av funksjonene i xx, altså θ=wTx\theta = w^T x. Videre vil vi anta at vi har uavhengige og identisk fordelte (iid) eksempler {(xi,yi)}i=1n\{(x_i, y_i)\}_{i=1}^n, og at vi kan modellere yiy_i som en Bernoulli-fordeling med etikettene ±1\pm 1. Den maksimale sannsynlighetsestimatoren for vektoren ww kan finnes som løsningen til følgende optimaliseringsproblem:

i=1nminlog(1+eyiwTxi)\sum_{i=1}^n \min \log \left( 1 + e^{ -y_i w^T x_i} \right)

Når w^\hat{w} er løsningen, kan den predikerte etiketten for en ny xx finnes ved:

y^=sign(w^Tx)\hat{y} = \text{sign}(\hat{w}^T x)

Denne optimaliseringen kalles logistisk regresjon, og den funksjonen f(θ)=log(11+eθ)f(\theta) = \log \left( \frac{1}{1 + e^{ -\theta}} \right) er kjent som den logistiske funksjonen, mens funksjonen (θ)=log(1+eθ)\ell(\theta) = \log(1 + e^{ -\theta}) er den logistiske tapsfunksjonen. Det er verdt å merke seg at den logistiske tapsfunksjonen er konveks i θ\theta, noe som gjør den lett å optimere. Dette kan vises ved at den andre derivert av (θ)\ell(\theta) er:

d2dθ2(θ)=eθ(1+eθ)20\frac{d^2}{d\theta^2} \ell(\theta) = \frac{e^{ -\theta}}{(1 + e^{ -\theta})^2} \geq 0

Multinomial logistisk regresjon

Når vi utvider modellen til multiklassifikasjon, håndterer vi situasjoner der yy kan ta flere verdier, for eksempel y=1,2,,Ky = 1, 2, \dots, K. For å modellere denne typen problem bruker vi en multiklass logistisk regresjon, hvor yy er en tilfeldig variabel som tar verdi kk med sannsynlighet P(y=k)=qkP(y = k) = q_k. For å beskrive denne sannsynligheten kan vi bruke en logit-modell, også kjent som softmax-funksjonen. Likelydelsen p(yq1,,qK)p(y | q_1, \dots, q_K) for de forskjellige klassene er:

p(yq1,,qK)=k=1K1{y=k}qk=exp(θTt(y))a(θ)p(y | q_1, \dots, q_K) = \sum_{k=1}^K 1\{y=k\} q_k = \exp(\theta^T t(y)) - a(\theta)

Hvor θ\theta er vektoren for de forskjellige klassene, og t(y)t(y) er den "one-hot" vektoren som representerer klassen til yy. For å sikre at sannsynlighetene summerer til 1, omformer vi qkq_k ved hjelp av den normerte softmax-funksjonen:

qk=eθkm=1Keθmq_k = \frac{e^{\theta_k}}{\sum_{m=1}^K e^{\theta_m}}

Denne parametrisering sikrer at vi får en valid sannsynlighetsfordeling. Videre, ved å omformulere likelydelsen i form av θ\theta, får vi en log-likelihood som kan skrives som:

L(θ)=log(k=1Keθk)L(\theta) = \log \left( \sum_{k=1}^K e^{\theta_k} \right)

Denne formen er en klassisk fremstilling av multinomial logistisk regresjon. Hvis vi antar at xx er en vektor med prediktorer og wkw_k er vektene for den kk-te klassen, kan vi bruke den lineære modellen θk=wkTx\theta_k = w_k^T x, og den predikerte etiketten for en ny xx blir:

y^=argmaxk{1,,K}wkTx\hat{y} = \arg\max_{k \in \{1, \dots, K\}} w_k^T x

Konveksitet og optimalisering

I både binær og multinomial logistisk regresjon, ser vi at tapsfunksjonene er konvekse i forhold til ww, noe som betyr at vi kan bruke gradientbaserte metoder, som gradient descent, for å finne den optimale løsningen. For begge modellene er målet å minimere et tap basert på log-likelihood, og ettersom disse funksjonene er konvekse, vil de sikre at vi finner en global minimum.

Viktige prinsipper for GLM

En nøkkelfunksjon i GLM er at den naturlige parameteren θ\theta er en lineær funksjon av xx. Dette betyr at modellen kan generalisere til flere typer distribusjoner, avhengig av hvilken type tapsfunksjon som brukes, som for eksempel kvadratisk tap for regresjon eller logistisk tap for binær klassifikasjon. Det er viktig å merke seg at de mest brukte tapsfunksjonene for klassifikasjon (logistisk, hinge) er konvekse, noe som gjør dem lettere å optimalisere i praktiske maskinlæringsapplikasjoner.

Den grunnleggende strukturen til GL

Hvordan Empirisk Risikominsimering og PAC-læring Fungerer i Ulike Modellklasser

I maskinlæring er målet med å trene en modell å minimere den forventede tapet eller risikoen som modellen påfører når den gjør forutsigelser. Dette er ofte formulert som å minimere den empiriske risikoen, som er summen av tapene på treningsdataene. Empirisk risikominsimering (ERM) er en metode som prøver å finne en modell som minimerer denne summen av tapene. Selv om dette virker som en fornuftig tilnærming, er det ikke alltid like enkelt å sikre at den valgte modellen vil ha lav risiko på nye, ikke-sett data. PAC-læring (Probably Approximately Correct) gir en ramme for å forstå hvordan vi kan stole på at en modell som er trent på en begrenset mengde data, vil ha god ytelse på nye data.

I utgangspunktet antar PAC-læring at treningsdataene er uavhengige og identisk fordelte (i.i.d.) prøver fra en ukjent sannsynlighetsfordeling PP. Målet er å velge en prediktor ff fra en modellklasse FF som minimerer den forventede risikoen R(f)R(f). Dette kan uttrykkes som minfFE(x,y)P[(y,f(x))]\min_{f \in F} E_{(x, y) \sim P}[\ell(y, f(x))], der \ell er tapsfunksjonen, og f(x)f(x) er prediksjonen for input xx. Den empiriske risikoen R^(f)\hat{R}(f) er den faktiske risikoen beregnet på treningsdataene, som vi ønsker å minimere.

ERM forsøker å finne den modellen ff som minimerer summen av tapene på treningsdataene:

f^=argminfFi=1n(yi,f(xi))\hat{f} = \arg\min_{f \in F} \sum_{i=1}^n \ell(y_i, f(x_i))

Her er f^\hat{f} den empiriske risikominsimereren. Når antall treningsdata nn er stort, konvergerer den empiriske risikoen R^(f)\hat{R}(f) mot den sanne risikoen R(f)R(f), ettersom tapene (yi,f(xi))\ell(y_i, f(x_i)) er uavhengige og identisk fordelte.

Men hvordan kan vi være sikre på at f^\hat{f} ikke bare er bra for treningsdataene, men også generaliserer godt til nye data? Dette er der PAC-læring kommer inn. Ved å bruke Markovs ujevnhet kan vi sette en øvre grense på hvordan mye den empiriske risikoen R^(f)\hat{R}(f) kan avvike fra den sanne risikoen R(f)R(f). En strengere grense kan oppnås ved hjelp av Chernoffs ujevne grenser, som gir en eksponentiell nedgang i sannsynligheten for at den empiriske risikoen avviker betydelig fra den sanne risikoen. Dette betyr at, med høy sannsynlighet, vil den valgte modellen f^\hat{f} ikke avvike mye fra den beste mulige modellen ff^*, den som minimerer den sanne risikoen R(f)R(f).

For å være mer presis, kan vi vise at hvis f^\hat{f} er den empiriske risikominsimereren, så vil forskjellen mellom den sanne risikoen R(f)R(f^*) og R(f^)R(\hat{f}) være liten med høy sannsynlighet, gitt et tilstrekkelig antall treningsdata. Dette innebærer at vi kan være ganske sikre på at f^\hat{f} er en "god" modell, som gir en lav risiko, selv om vi ikke har tilgang til hele den sanne distribusjonen PP.

Det er viktig å merke seg at hvor raskt feilen i generalisering avtar, avhenger av flere faktorer. Først og fremst er det størrelsen på modellklassen FF. Hvis FF er stor, må vi kanskje ha et mye større antall treningsdata for å oppnå en god generalisering. Dette er grunnen til at vi ofte ser at PAC-læring gir bedre resultater når modellklassene er små eller velstrukturert, ettersom det er lettere å generalisere fra et mindre sett av mulige modeller.

En annen viktig faktor er kompleksiteten til tapsfunksjonen \ell. Hvis tapsfunksjonen er svært kompleks eller har et stort antall parameter, kan det være vanskeligere å generalisere godt, selv med mange treningsdata. Det er derfor viktig å velge tapsfunksjoner som balanserer kompleksitet og generaliseringsevne.

I tilfeller der modellklassen FF er uendelig, som i tilfelle av lineære klassifikatorer, kan PAC-læring fortsatt anvendes, men vi trenger å bruke begrepet "shatter coefficient" for å beskrive hvordan mange unike inndelinger av dataene kan utføres ved hjelp av hyperplaner. Antall forskjellige etiketter som kan opprettes for nn punkter i dd-dimensjonale rom ved hjelp av hyperplaner kan være veldig stort, men er fortsatt begrenset. Dette er et viktig resultat når vi håndterer uendelige modellklasser, da det hjelper oss å forstå hvordan generaliseringsevnen oppfører seg selv om vi har uendelig mange potensielle modeller.

Ved å bruke PAC-læring kan vi derfor oppnå en forståelse av hvordan og hvorfor modeller fungerer godt på dataene de er trent på, og hvordan de sannsynligvis vil prestere på nye, ikke-sett data. Den teoretiske rammen gir sterke garantier for modellens generalisering, basert på størrelsen på treningssettet, kompleksiteten til modellklassen og kvaliteten på tapsfunksjonen.