For å forstå de grunnleggende prinsippene bak generelle lineære modeller (GLM), er det viktig å begynne med det enkleste tilfellet – binær klassifikasjon. I binær klassifikasjon ønsker vi å modellere sannsynligheten for at en variabel tar en av to mulige verdier (for eksempel eller ) gitt en sett med prediktorer . Dette kan gjøres ved å bruke en logistisk regresjon, hvor vi antar at sannsynligheten for et gitt utfall er koblet til de lineære prediktorene gjennom den logistiske funksjonen.
Logistisk regresjon
I binær logistisk regresjon, for enkelhets skyld, bruker vi de binære etikettene i stedet for og , slik at blir omformet til . Dette fører til følgende sannsynlighet:
Dette kan tolkes som en modell der den naturlige parameteren er lik en lineær funksjon av funksjonene i , altså . Videre vil vi anta at vi har uavhengige og identisk fordelte (iid) eksempler , og at vi kan modellere som en Bernoulli-fordeling med etikettene . Den maksimale sannsynlighetsestimatoren for vektoren kan finnes som løsningen til følgende optimaliseringsproblem:
Når er løsningen, kan den predikerte etiketten for en ny finnes ved:
Denne optimaliseringen kalles logistisk regresjon, og den funksjonen er kjent som den logistiske funksjonen, mens funksjonen er den logistiske tapsfunksjonen. Det er verdt å merke seg at den logistiske tapsfunksjonen er konveks i , noe som gjør den lett å optimere. Dette kan vises ved at den andre derivert av er:
Multinomial logistisk regresjon
Når vi utvider modellen til multiklassifikasjon, håndterer vi situasjoner der kan ta flere verdier, for eksempel . For å modellere denne typen problem bruker vi en multiklass logistisk regresjon, hvor er en tilfeldig variabel som tar verdi med sannsynlighet . For å beskrive denne sannsynligheten kan vi bruke en logit-modell, også kjent som softmax-funksjonen. Likelydelsen for de forskjellige klassene er:
Hvor er vektoren for de forskjellige klassene, og er den "one-hot" vektoren som representerer klassen til . For å sikre at sannsynlighetene summerer til 1, omformer vi ved hjelp av den normerte softmax-funksjonen:
Denne parametrisering sikrer at vi får en valid sannsynlighetsfordeling. Videre, ved å omformulere likelydelsen i form av , får vi en log-likelihood som kan skrives som:
Denne formen er en klassisk fremstilling av multinomial logistisk regresjon. Hvis vi antar at er en vektor med prediktorer og er vektene for den -te klassen, kan vi bruke den lineære modellen , og den predikerte etiketten for en ny blir:
Konveksitet og optimalisering
I både binær og multinomial logistisk regresjon, ser vi at tapsfunksjonene er konvekse i forhold til , noe som betyr at vi kan bruke gradientbaserte metoder, som gradient descent, for å finne den optimale løsningen. For begge modellene er målet å minimere et tap basert på log-likelihood, og ettersom disse funksjonene er konvekse, vil de sikre at vi finner en global minimum.
Viktige prinsipper for GLM
En nøkkelfunksjon i GLM er at den naturlige parameteren er en lineær funksjon av . Dette betyr at modellen kan generalisere til flere typer distribusjoner, avhengig av hvilken type tapsfunksjon som brukes, som for eksempel kvadratisk tap for regresjon eller logistisk tap for binær klassifikasjon. Det er viktig å merke seg at de mest brukte tapsfunksjonene for klassifikasjon (logistisk, hinge) er konvekse, noe som gjør dem lettere å optimalisere i praktiske maskinlæringsapplikasjoner.
Den grunnleggende strukturen til GL
Hvordan Empirisk Risikominsimering og PAC-læring Fungerer i Ulike Modellklasser
I maskinlæring er målet med å trene en modell å minimere den forventede tapet eller risikoen som modellen påfører når den gjør forutsigelser. Dette er ofte formulert som å minimere den empiriske risikoen, som er summen av tapene på treningsdataene. Empirisk risikominsimering (ERM) er en metode som prøver å finne en modell som minimerer denne summen av tapene. Selv om dette virker som en fornuftig tilnærming, er det ikke alltid like enkelt å sikre at den valgte modellen vil ha lav risiko på nye, ikke-sett data. PAC-læring (Probably Approximately Correct) gir en ramme for å forstå hvordan vi kan stole på at en modell som er trent på en begrenset mengde data, vil ha god ytelse på nye data.
I utgangspunktet antar PAC-læring at treningsdataene er uavhengige og identisk fordelte (i.i.d.) prøver fra en ukjent sannsynlighetsfordeling . Målet er å velge en prediktor fra en modellklasse som minimerer den forventede risikoen . Dette kan uttrykkes som , der er tapsfunksjonen, og er prediksjonen for input . Den empiriske risikoen er den faktiske risikoen beregnet på treningsdataene, som vi ønsker å minimere.
ERM forsøker å finne den modellen som minimerer summen av tapene på treningsdataene:
Her er den empiriske risikominsimereren. Når antall treningsdata er stort, konvergerer den empiriske risikoen mot den sanne risikoen , ettersom tapene er uavhengige og identisk fordelte.
Men hvordan kan vi være sikre på at ikke bare er bra for treningsdataene, men også generaliserer godt til nye data? Dette er der PAC-læring kommer inn. Ved å bruke Markovs ujevnhet kan vi sette en øvre grense på hvordan mye den empiriske risikoen kan avvike fra den sanne risikoen . En strengere grense kan oppnås ved hjelp av Chernoffs ujevne grenser, som gir en eksponentiell nedgang i sannsynligheten for at den empiriske risikoen avviker betydelig fra den sanne risikoen. Dette betyr at, med høy sannsynlighet, vil den valgte modellen ikke avvike mye fra den beste mulige modellen , den som minimerer den sanne risikoen .
For å være mer presis, kan vi vise at hvis er den empiriske risikominsimereren, så vil forskjellen mellom den sanne risikoen og være liten med høy sannsynlighet, gitt et tilstrekkelig antall treningsdata. Dette innebærer at vi kan være ganske sikre på at er en "god" modell, som gir en lav risiko, selv om vi ikke har tilgang til hele den sanne distribusjonen .
Det er viktig å merke seg at hvor raskt feilen i generalisering avtar, avhenger av flere faktorer. Først og fremst er det størrelsen på modellklassen . Hvis er stor, må vi kanskje ha et mye større antall treningsdata for å oppnå en god generalisering. Dette er grunnen til at vi ofte ser at PAC-læring gir bedre resultater når modellklassene er små eller velstrukturert, ettersom det er lettere å generalisere fra et mindre sett av mulige modeller.
En annen viktig faktor er kompleksiteten til tapsfunksjonen . Hvis tapsfunksjonen er svært kompleks eller har et stort antall parameter, kan det være vanskeligere å generalisere godt, selv med mange treningsdata. Det er derfor viktig å velge tapsfunksjoner som balanserer kompleksitet og generaliseringsevne.
I tilfeller der modellklassen er uendelig, som i tilfelle av lineære klassifikatorer, kan PAC-læring fortsatt anvendes, men vi trenger å bruke begrepet "shatter coefficient" for å beskrive hvordan mange unike inndelinger av dataene kan utføres ved hjelp av hyperplaner. Antall forskjellige etiketter som kan opprettes for punkter i -dimensjonale rom ved hjelp av hyperplaner kan være veldig stort, men er fortsatt begrenset. Dette er et viktig resultat når vi håndterer uendelige modellklasser, da det hjelper oss å forstå hvordan generaliseringsevnen oppfører seg selv om vi har uendelig mange potensielle modeller.
Ved å bruke PAC-læring kan vi derfor oppnå en forståelse av hvordan og hvorfor modeller fungerer godt på dataene de er trent på, og hvordan de sannsynligvis vil prestere på nye, ikke-sett data. Den teoretiske rammen gir sterke garantier for modellens generalisering, basert på størrelsen på treningssettet, kompleksiteten til modellklassen og kvaliteten på tapsfunksjonen.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский