Nevrale nettverk, spesielt de med ReLU-aktiveringsfunksjoner, er bygget på matematiske prinsipper som kan være både enkle og komplekse avhengig av hvordan de tilpasses og reguleres. I sammenheng med stabilitet og normer, blir spørsmålet om hvordan vektene til nettverkets noder bør håndteres en avgjørende faktor for å oppnå ønskede generaliserings- og robusthetsegenskaper.
En stabil funksjon f er en der f(x) ≈ f(x + ϵ) for enhver liten forstyrrelse ϵ og hvert punkt x. Stabiliteten til funksjonen er viktig fordi den bidrar til god generalisering, ettersom stabile funksjoner gir omtrent like utfall for lignende innganger. I nevrale nettverk innebærer stabilitet at outputen fra et gitt lag ikke forandres dramatisk når inputen blir litt endret. Dette kan knyttes direkte til normene vi bruker for å regulere vektene i nettverket. For å forstå dette, kan vi se på en enkelt ReLU-nevron funksjon: f(x) = vjT(wjx)+, og merke oss at forskjellen |f(x + ϵ) − f(x)| kan estimeres som ∥vjwj∥2 ∥ϵ∥2. Derfor vil stabiliteten være bedre når produktet vjwj har en liten norm.
Et problem med den tradisjonelle euklidiske normen for vektene er at den ikke nødvendigvis reflekterer stabiliteten til funksjonen i et nevralt nettverk. Den euklidiske normen er liten dersom både vj og wj er små, men den kan fortsatt være stor dersom den ene er stor og den andre svært liten (for eksempel hvis ∥wj∥2 = 1 og vj = 0.001). Dermed gir den euklidiske normen et misvisende bilde av stabiliteten til en funksjon som er realisert gjennom et nevralt nettverk.
Når vi går dypere inn i teoretiske rammeverk, som Banach-rommet for ReLU-nevrale nettverk, blir forståelsen av normer og stabilitet enda viktigere. Banach-rommet er et matematisk rom av funksjoner hvor vi kan anvende verktøy som total variasjon (TV) for å analysere oppførselen til en funksjon. For en ReLU-nettverksfunksjon som f(x) = Σvjσ(wjx + bj), hvor σ er ReLU-funksjonen, vil den totale variasjonen av den deriverte av funksjonen være summen av størrelsene på endringene (eller hoppene) i funksjonen. Dette innebærer at normene som regulerer vektene (som path-norm) er direkte knyttet til total variasjon av den deriverte.
I praksis kan det være tilstrekkelig å bruke en regulering som kun fokuserer på vektenes norm i et nevralt nettverk, da dette kan bidra til å begrense overfitting og sikre at nettverket generaliserer godt til nye, usette data. Dette understreker viktigheten av å velge passende normer for vektene, ettersom de kan ha stor innvirkning på ytelsen til nettverket.
Samtidig er det viktig å merke seg at for å sikre god generaliseringsevne for nevrale nettverk, bør vi ikke bare fokusere på de individuelle vektene, men også på hvordan de ulike delene av nettverket samhandler. Det er essensielt å finne en balanse mellom å tillate tilstrekkelig kompleksitet for å modellere de nødvendige relasjonene i dataene, samtidig som vi unngår å overfitting ved å bruke reguleringsmetoder som riktig veier stabilitet og normer.
Ved å tilpasse vektnormalisering, som ved hjelp av path-norm eller andre reguleringsmetoder, kan vi skape et mer robust nevralt nettverk som presterer bedre både på kjente og ukjente data.
Hvordan forstå sannsynligheter, forventninger og konvergens i statistikk
I arbeidet med distribusjoner og statistiske modeller er det viktig å forstå grunnleggende begreper som sannsynlighet, forventning, og varians, som danner grunnlaget for videre analyser. Denne delen av boka fokuserer på disse konseptene, og gir et grunnlag for hvordan man kan anvende dem i praktisk statistikk og maskinlæring.
En tilfeldig variabel, , kan beskrives ved dens sannsynlighetsfordeling. Dette betyr at vi kan uttrykke den med en marginal distribusjon, , som gir sannsynligheten for at tar forskjellige verdier. Når vi har flere tilfeldige variabler, som for eksempel og , kan vi analysere den felles distribusjonen , som gir sannsynligheten for at og inntar bestemte verdier samtidig.
Forventningen til en tilfeldig variabel er det gjennomsnittlige utfallet man kan forvente når man utfører mange eksperimenter. Variansen , som er definert som , gir en idé om hvor mye sprer seg rundt sitt forventede gjennomsnitt. En viktig egenskap er at når vi jobber med betinget forventning, for eksempel , beskriver dette den forventede verdien av gitt at . Dette kan også skrives som når vi jobber med en funksjon av begge variablene.
En annen sentral del av statistikk er loven om store tall (LLN), som forteller oss at gjennomsnittet av en stor mengde uavhengige, identisk fordelte tilfeldige variabler vil konvergere mot deres forventningsverdi. Dette gjelder for både den svake og sterke versjonen av loven. Den svake loven sier at gjennomsnittet konvergerer i sannsynlighet til den teoretiske forventningen, mens den sterke loven sier at konvergensen skjer nesten sikkert når antallet prøver går mot uendelig.
Men mens loven om store tall gir oss en generell idé om konvergens, gir den oss lite informasjon om hvordan denne konvergensen skjer, spesielt når det gjelder variasjonen i de empiriske gjennomsnittene. Her kommer den sentrale grenseverditeoremet (CLT) inn. CLT beskriver at distribusjonen av gjennomsnittene av tilfeldige variabler vil nærme seg en normalfordeling når antallet variabler blir stort. Dette gir oss en kvantitativ forståelse av variasjonen i gjennomsnittsverdiene, og hvordan denne variasjonen avtar med økende antall observasjoner.
I tillegg til disse fundamentale teoremene, er det også viktig å forstå de relevante ulikhetene som brukes til å analysere tilfeldige variabler. Markovs ulikhet gir et øvre grense for sannsynligheten for at en tilfeldig variabel overstiger en viss verdi, mens Tjebysjevs ulikhet gir en grense for sannsynligheten for at en variabel avviker betydelig fra sitt gjennomsnitt. Disse ulikhetene kan brukes til å trekke konklusjoner om fordelingen til tilfeldige variabler når vi har begrenset informasjon om den eksakte distribusjonen.
For en mer grundig forståelse er det viktig å utforske flere teoremer som kan anvendes i forskjellige statistiske og maskinlæringskontekster. En slik teorem er Jensens ulikhet, som gir et forhold mellom forventningen av en funksjon av en tilfeldig variabel og funksjonen av dens forventning. Dette kan være svært nyttig i optimering og når man jobber med konvekse funksjoner.
En annen viktig ulikhet er Cauchy-Schwarz ulikheten, som gir et forhold mellom produktet av to tilfeldige variabler og deres respektive forventede verdier. Denne ulikheten har mange anvendelser, spesielt i analyse av korrelasjon og lineære modeller.
Når man forstår disse grunnleggende statistiske verktøyene, kan man gå videre til mer avanserte konsepter som den itererte logaritmes lov (LIL), som beskriver hvordan tilfeldige prosesser kan fluktuere rundt et forventet gjennomsnitt. LIL gir en mer presis forståelse av de store svingningene som kan forekomme når man jobber med uavhengige tilfeldige variabler over tid.
Alle disse teoremene og ulikhetene gir et fundament for å bygge statistiske modeller og analysere data på en robust måte. For leseren er det viktig å ikke bare forstå disse teoremene på et teoretisk nivå, men også å være i stand til å anvende dem praktisk i konteksten av maskinlæring, dataanalyse, og andre statistiske applikasjoner.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский