Når vi står overfor problemer som krever estimering av ukjente parametere, kan vi bruke flere metoder for å finne best mulige estimater. En av de mest kjente metodene for parameterestimering er maksimal sannsynlighetsestimering (Maximum Likelihood Estimation, MLE). Denne metoden utnytter dataene våre til å finne den verdien av en parameter som maksimerer sannsynligheten for at dataene vi observerer, faktisk skjer under et gitt modell.
Et konkret eksempel på dette kan være å estimere parameteren i et uniformt fordelte datasett. Anta at vi har en sekvens av uavhengige og identisk fordelte (i.i.d.) variabler som følger en Uniform(0, ) fordeling. Den optimale MLE for kan finnes ved å maksimere sannsynlighetsfunksjonen for observasjonene.
La oss anta at er uavhengige og har en Uniform(0, ) fordeling. Sannsynlighetsfunksjonen for denne fordelingen er gitt ved:
Hvor er indikatorfunksjonen som er lik 1 når , og 0 ellers. For å maksimere denne sannsynlighetsfunksjonen, ser vi at er den MLE for , da den maksimale observasjonen i datasettet gir den beste estimatoren for parameteren.
Konsistens av MLE
En viktig egenskap ved MLE er dens konsistens, som innebærer at estimatoren nærmer seg den sanne parameterverdien når antallet observasjoner øker mot uendelig. For vår uniformt fordelte variabel , kan vi vise at MLE for , , er konsistent.
For å vise dette, betrakter vi forventningen og variansen til . Når blir stort, vil nærme seg den sanne verdien av ettersom den maksimale observasjonen i et stort datasett blir nærmere den øvre grensen . Dette gir oss en følelse av hvordan MLE fungerer i praksis: den gir mer nøyaktige estimater etter hvert som vi samler flere data.
Estimering av Eksponentiell Fordeling
Et annet interessant eksempel på MLE er estimering av parameteren i en eksponentielt fordelt variabel, hvor dataene representerer tidsintervallene mellom hendelser i en Poisson-prosess. Anta at vi har en rekke uavhengige og identisk fordelte observasjoner , der hver er eksponentielt fordelt med parameteren . Den sannsynlige funksjonen for denne fordelingen er gitt av:
MLE for i dette tilfellet kan finnes ved å maksimere den samlede sannsynligheten for observasjonene:
Ved å derivere denne sannsynlighetsfunksjonen med hensyn til og sette den lik null, finner vi at MLE for er gitt ved:
Denne estimatoren er konsistent, og når vokser, nærmer seg den sanne verdien av .
Robust Estimering
I virkelige scenarioer, der dataene våre kan være utsatt for feil eller ekstreme verdier, kan vi møte på problemer med tradisjonelle estimeringsmetoder som MLE. Et alternativ er robust estimering, som søker å minimere effekten av avvikende observasjoner på estimatet vårt.
En vanlig tilnærming til robust estimering er å minimere summen av absoluttfeil i stedet for kvadrerte feil. For eksempel, for et sett av observasjoner , kan vi bruke følgende feilfunksjon:
Minimering av denne funksjonen gir et estimat som er mindre følsomt for ekstreme verdier i datasettet. Denne estimatoren kan også ses som en MLE dersom dataene antas å komme fra en Laplace-fordeling. MLE for denne situasjonen vil gi:
Denne estimatoren har ønskelige robuste egenskaper, spesielt når dataene inneholder uteliggere eller unøyaktigheter.
Samlet Betydning av Sufficient Statistics
En annen viktig idé innen estimering er bruk av tilstrekkelige statistikker. En statistikk er tilstrekkelig for en parameter hvis distribusjonen til observasjonene, gitt denne statistikken, ikke avhenger av . Med andre ord, all informasjon om kan oppsummeres i , og ingen annen informasjon i dataene er nødvendig.
For eksempel, i tilfelle av Bernoulli-fordeling, er antallet 1-er i datasettet en tilstrekkelig statistikk for parameteren . Dette er et grunnleggende konsept som kan hjelpe oss med å redusere kompleksiteten i estimeringsproblemer ved å bruke mindre datamengde for å oppnå like nøyaktige estimeringer.
Viktige Elementer for Leseren
Det er viktig for leseren å forstå at MLE er et kraftig verktøy som gir nøyaktige og konsistente estimater, men at metoden kan være sensitiv for feil i dataene. Robust estimering tilbyr en løsning på dette problemet ved å gi mer stabile resultater under feilaktige eller ekstreme observasjoner. Samtidig er begrepet tilstrekkelige statistikker avgjørende for å forenkle estimeringsprosesser, og forståelsen av hvordan ulike statistiske metoder kan anvendes på forskjellige fordelinger er viktig for effektiv modellering.
Hva er minimum feilklassifikasjons-sannsynlighet i et multiklasse-setting?
I maskinlæring er det vanlig å anta at treningsdataene {xi, yi}ni=1 er uavhengige og identisk fordelte (iid) ifølge den felles distribusjonen . En effektiv tilnærming til å designe en klassifikator er å bruke en generativ modell som tilpasser dataene og benytter denne modellen for å lage en klassifikator. Dette gjøres gjerne ved å estimere betingede sannsynligheter . Et av de mest brukte sannsynlighetsmodellene i maskinlæring er den multivariat Gaussiske (MVN) modellen, som er en utvidelse av den enkle Gaussiske distribusjonen til høyere dimensjoner.
I tilfelle av en multiklasseklassifikator, hvor det er mer enn to klasser, er det essensielt å forstå hvordan feilklassifikasjonen kan minimeres under gitte forutsetninger. Klassifikatoren er optimal hvis den minimerer sannsynligheten for feil, og dette kan uttrykkes ved hjelp av Bayes' teorem. Den optimale klassifikatoren er gitt ved , der er sannsynligheten for at observasjonen tilhører klassen .
I en multiklasse setting, der vi har klasser, kan vi bruke Bayes’ regel for å relatere den betingede sannsynligheten til de klassespesifikke densitetene og de marginale sannsynlighetene . Den optimale beslutningen om hvilken klasse et gitt tilhører, blir dermed en maksimumsprobabilistisk beslutning, der vi velger klassen med høyest .
Når klassene er betinget Gaussiske distribusjoner , der er gjennomsnittet og er kovariansmatrisen for klassen , kan den optimale klassifikatoren også uttrykkes som en log-likelihood-ratio. For binær klassifikasjon, med to klasser, kan dette formuleres som en kvadratisk beslutningsoverflate, noe som gir et lineært grenseflaten når klassene har like kovarianser.
I praksis kan det være nødvendig å estimere feilklassifikasjonssannsynligheten på bakgrunn av et treningssett. Dette kan uttrykkes som et estimat basert på de tilgjengelige dataene, og dette estimatet kan ha en feilmargin. For eksempel, dersom vi har et treningssett med og den estimerte feilklassifikasjonssannsynligheten er 0.05, er det viktig å forstå om den sanne feilraten mest sannsynlig er lavere enn en viss grense, som for eksempel 0.10. Denne vurderingen er kritisk i praksis, da det gir en indikasjon på klassifikatorens pålitelighet.
Når det gjelder estimering av feilklassifikasjonssannsynlighet, kan vi anvende Bayes' kostnadskriterium. Her defineres den totale kostnaden som summen av feilklassifikasjoner, hvor feilkostnadene for hvert mulig utfall er viktige å vurdere. Det er også avgjørende å vurdere hvordan prior-probabilitetene for hver klasse påvirker beslutningene, ettersom er prior-probabiliteten for at .
I tilfelle av multiklasseklassifikasjon der alle klassene er betinget Gaussiske distribusjoner, blir optimaliteten til klassifikatoren gitt av maksimal sannsynlighet. Dersom prior-probabilitetene er like for alle klassene, blir den optimale klassifikatoren den som maksimerer den betingede sannsynligheten, og dette kan føre til et lineært beslutningsområde dersom kovariansene er like.
I tillegg til de generelle resultatene for optimal klassifikasjon, er det viktig å merke seg at sannsynligheten for feil kan minimeres ytterligere ved å justere fordelingene av priorene eller bruke forskjellige feilkostnader for ulike typer feilklassifikasjoner. Klassifikasjonens kvalitet kan derfor også bli forbedret ved å tilpasse priorene i henhold til praktiske krav eller uforholdsmessige kostnader ved feilklassifikasjonene.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский