Konvolusjon er et fundamentalt verktøy i maskinlæring, spesielt innenfor nevrale nettverk som Convolutional Neural Networks (CNN). Operasjonen innebærer at et lite filter eller en kjerne beveges over et større dataområde, for eksempel et bilde, hvor hver posisjon resulterer i en ny verdi i et utdatafelt. Ved å multiplisere elementene i kjernen med de tilsvarende elementene i inputmatrisen og summere resultatene, kan man trekke ut lokale mønstre i dataene, slik det illustreres i eksempelberegninger som å finne verdier i utdatafunksjoner ved hjelp av skiftekjerner.

Denne metoden skiller seg fra fullstendig tilkoblede nettverk ved at den utnytter tre sentrale prinsipper: sparsom interaksjon, parameterdeling og ekvivalente representasjoner. Sparsom interaksjon innebærer at hver neuron i en konvolusjonslag kun er koblet til et begrenset område i inputen, kalt det lokale reseptive feltet, i motsetning til full tilkobling som inkluderer alle nevroner. Dette gjør det mulig å identifisere detaljer som kan være viktige i små områder, for eksempel kanter eller teksturer i et bilde.

Parameterdeling er en avgjørende mekanisme hvor det samme settet med parametere i en kjerne brukes på alle deler av inputen. Dette reduserer antallet parametere som må læres, noe som både øker effektiviteten i treningsprosessen og fungerer som en form for regulering, og hindrer overtilpasning. Det gjør også at nettverket kan gjenkjenne mønstre uavhengig av deres posisjon i inputen.

Ekvivarians, spesielt oversettelsesekvivalens, betyr at dersom inputen forskyves, vil også utdataen forskyves på samme måte. Matematisk uttrykkes dette ved at en forskyvning av inputen etterfølges av konvolusjonen, og dette er ekvivalent med at konvolusjonen utføres først og deretter forskyvningen. Dette er avgjørende i bilder og andre typer data hvor det ikke nødvendigvis er viktig hvor i bildet et objekt befinner seg, men at det finnes.

I praktiske anvendelser håndterer CNN ofte flerkanalsdata, slik som fargebilder med rødt, grønt og blått, der både input og output representeres som tredimensjonale tensorer. Dette innebærer at konvolusjonskjernen i slike tilfeller må være en firedimensjonal tensor, som veier sammen informasjon over alle kanaler i inputen for å produsere de ulike kanalene i outputen. Hver utgangskanal kan tolkes som en funksjon som registrerer spesifikke trekk i dataene, som kanter, teksturer eller komplekse mønstre.

I tillegg til kjernene kan det legges til bias-termer for hver utgangskanal, som er delt over alle romlige posisjoner, noe som gir nettverket større fleksibilitet i representasjonene. Parametere som stride og padding styrer hvordan kjernen beveger seg over inputen og hvordan kantinformasjon behandles. En større stride betyr at kjernen hopper over flere posisjoner, som fører til en nedskalering av outputdimensjonen, mens padding legger til ekstra verdier langs kantene for å bevare dimensjonene eller forhindre informasjonstap.

Konvolusjonslag kombineres gjerne med ikke-lineære aktiveringsfunksjoner som introduserer kompleksitet og læringskapasitet, og med pooling-operasjoner som reduserer dimensjonalitet ved å trekke ut representative verdier fra lokalt sammenhengende områder. Max-pooling er en vanlig metode som fremhever den sterkeste responsen i et område, og bidrar til å gjøre nettverket mer robust mot små forskyvninger og forvrengninger.

Konvolusjonens betydning strekker seg også utenfor nevrale nettverk, for eksempel i wavelet-transformasjoner og scattering-transformer som gir matematiske verktøy for å analysere og forstå egenskapene til CNN, spesielt i multiskala- og multilagsstrukturer.

Det er viktig å forstå at konvolusjon ikke bare er en teknisk operasjon, men en nøkkelmekanisme som muliggjør effektiv, robust og lokalisert mønstergjenkjenning i komplekse datastrukturer. Den reduserer kompleksiteten ved å fokusere på relevante lokasjoner, samtidig som den bevarer informasjonens struktur gjennom parameterdeling og ekvivalens. Å ha innsikt i hvordan parametere som stride, padding og kanalstruktur påvirker modellen, er essensielt for å kunne designe effektive nevrale nettverk tilpasset ulike oppgaver.

Hvordan oppstår og forstås entropihastighet og informasjonsrate i stokastiske prosesser?

I en stokastisk prosess som gjennomgår gjentatte overganger mellom tilstander, vil en stasjonær fordeling, betegnet som π, etter tilstrekkelig mange iterasjoner oppstå. Denne stasjonære tilstanden innebærer at sannsynligheten for å befinne seg i en hvilken som helst tilstand ikke endres videre i påfølgende overgangstrinn, noe som matematisk uttrykkes som π = Aπ, hvor A er overgangsmatrisen. Entropihastighet (entropy rate) for en tilfeldig prosess defineres som gjennomsnittlig entropi per symbol over en sekvens av målinger, og tilsvarer innovasjonsentropien, altså entropien til en tilfeldig variabel betinget på dens fortid.

For en sekvens av tilfeldige målinger Xn={X1,X2,...,Xn}X_n = \{X_1, X_2, ..., X_n\} fra en prosess X={X1,X2,...,Xn,...}X = \{X_1, X_2, ..., X_n, ...\}, er entropihastigheten uttrykt som grenseverdien for gjennomsnittlig entropi per symbol når sekvenslengden går mot uendelig, eller som innovasjonsentropi som er den betingede entropien til en ny observasjon gitt fortiden. Disse to definisjonene sammenfaller trivielt ved uavhengige hendelser, og ved stasjonære prosesser blir entropihastigheten gitt som betinget entropi av neste tilstand basert på nåværende tilstand.

For en Markov-kjede kan entropien av den stasjonære fordelingen og entropihastigheten uttrykkes ved hjelp av overgangssannsynlighetene og den stasjonære fordelingen: entropien til den stasjonære fordelingen er en sum over sannsynlighetene multiplisert med logaritmen til disse, mens entropihastigheten er en forventet betinget entropi over overgangsmatrisen. Informasjonsraten (Information Rate, IR) kombinerer disse to begrepene for å beskrive hvordan informasjon propagere i tid i en stokastisk prosess. Den er definert som forskjellen mellom entropien til den stasjonære fordelingen og entropihastigheten, og tilsvarer den gjensidige informasjonen mellom tidligere og fremtidige tilstander. For en Markov-prosess er denne avhengigheten begrenset til nåværende tilstand.

For mer generelle stasjonære tidsserier kan informasjonsraten utvides til å fange opp informasjonsoverføring over arbitrært lange fortider, der man ser på gjensidig informasjon mellom nåværende observasjon og dens fortid. Her introduseres også begrepet prediktiv informasjonsrate (Predictive Information Rate, PIR) som måler forskjellen i informasjonsrate mellom en- og flertrinnsforutsigelser. Sammen med betinget entropi av nåtiden gitt både fortid og fremtid, kalt «erasure entropy», utgjør disse målene en statistisk relasjon mellom fortid, nåtid og fremtid.

Et eksempel på en nesten deterministisk Markov-kjede er en der overgangsmatrisen nærmest er diagonal, med nesten sikker overgang til neste tilstand i sekvensen. I slike tilfeller blir entropihastigheten tilnærmet null, og informasjonsraten nær maksimal, noe som indikerer høy avhengighet til fortiden og god forutsigbarhet. Omvendt, i en fullt blandet prosess der overgangssannsynlighetene er omtrent like for alle tilstander, er entropien og entropihastigheten like store, og informasjonsraten går mot null, noe som betyr at kunnskap om fortiden ikke gir informasjon om fremtiden.

Utvidelsen av disse konseptene til ikke-Markovske og ikke-lineære prosesser, som de som modelleres ved hjelp av RNN, LSTM, CNN eller Transformere, krever måling av entropi i prediksjonsfeil sammenlignet med entropien til prosessen uten tidsstruktur, altså i en uavhengig og identisk fordelt (i.i.d.) kontekst. I slike modeller representeres data i latente tilstander, som aktiveringene i skjulte lag i nevrale nettverk, der informasjonsteoretiske rammeverk som Information Bottleneck kan brukes for å forstå og optimalisere forholdet mellom representasjonens kompleksitet og prediksjonsevne.

Information Bottleneck søker å finne en latent representasjon ZZ som effektivt fanger essensen i inputvariabelen XX med tanke på å predikere outputvariabelen YY. Representasjonen ZZ fungerer som et mellomledd som balanserer kompleksitet og presisjon, ved å minimere forskjellen mellom prediksjon basert på full informasjon XX og prediksjon basert på en forenklet kode ZZ. Dette formaliseres ved Kullback–Leibler-divergens mellom betingede sannsynlighetsfordelinger, og uttrykkes i termer av gjensidig informasjon.

Det er viktig å forstå at informasjonsraten og relaterte mål ikke bare gir tallfestede størrelser på usikkerhet og avhengighet, men også fungerer som indikatorer på forutsigbarheten i en prosess. Høye verdier av IR og PIR innebærer en strukturert og historisk avhengig prosess, mens lave verdier indikerer nærmest tilfeldig oppførsel. Å beherske disse begrepene gir et grunnlag for å analysere og modellere tidsavhengige fenomener i både teoretiske og praktiske anvendelser innen maskinlæring og signalbehandling.

For å utdype forståelsen bør leseren også være oppmerksom på hvordan stasjonaritet påvirker entropiberegningene, og hvordan valg av modellstruktur (Markov vs. ikke-Markov) endrer tolkningen av informasjonsoverføring. Videre spiller den matematiske formalismen rundt betinget entropi og gjensidig informasjon en nøkkelrolle for å kunne anvende teorien i praksis, spesielt i komplekse systemer med skjulte tilstander og dynamiske avhengigheter.

Hvordan kan nevrale nettverk forstås som Gaussiske prosesser?

I regresjonsmodellen hvor en observert etikett tt genereres som t=y+εt = y + \varepsilon, der støyen ε\varepsilon følger en normalfordeling N(0,σ2)\mathcal{N}(0, \sigma^2), kan vi uttrykke sannsynligheten for observasjonen gitt den underliggende funksjonen yy som p(ty)=N(ty,σ2)p(t|y) = \mathcal{N}(t|y, \sigma^2). Når vi har en treningsmengde med NN datapunkter med input-funksjoner x1,,xNx_1, \ldots, x_N og tilhørende etiketter t1,,tNt_1, \ldots, t_N, kan den betingede sannsynligheten uttrykkes ved en multivariat normalfordeling p(tNyN)=N(tNyN,σ2I)p(t_N|y_N) = \mathcal{N}(t_N|y_N, \sigma^2 I), hvor yNy_N representerer de sanne verdiene. Antagelsen om at funksjonen yNy_N følger en Gaussisk prosess (GP) med en kovariansmatrise KK, der Knm=K(xn,xm)K_{nm} = K(x_n, x_m), gir oss at den marginale sannsynligheten for observasjonene er p(tN)=N(tN0,LN)p(t_N) = \mathcal{N}(t_N|0, L_N), hvor LN=KN+σ2IL_N = K_N + \sigma^2 I.

Når vi skal predikere etiketten til et nytt testpunkt xtestx_{\text{test}}, utvider vi kovariansmatrisen til LN+1=KN+1+σ2IL_{N+1} = K_{N+1} + \sigma^2 I, hvor KN+1K_{N+1} inkluderer krysskovarianser mellom trenings- og testpunktene. Den betingede sannsynligheten for testetiketten gitt treningsdata er også Gaussian, med forventning og varians gitt ved henholdsvis μtest=kNTLN1tN\mu_{\text{test}} = k_N^T L_N^{ -1} t_N og σtest2=kN+1kNTLN1kN\sigma^2_{\text{test}} = k_{N+1} - k_N^T L_N^{ -1} k_N. Denne formelle beskrivelsen av GP-regresjon illustrerer hvordan man kan bruke kovariansstrukturer for å gjøre prediksjoner med usikkerhetsestimater.

Når det gjelder nevrale nettverk (NN), kan vi betrakte funksjonen y(x;θ)y(x; \theta), bestemt av parametrene θ\theta, som en stokastisk prosess når vektene θ\theta initieres med tilfeldige variabler. For et enkelt fullt tilkoblet nettverk med én skjult lag, der vektene initieres som Wjk(1)N(0,σW2)W^{(1)}_{jk} \sim \mathcal{N}(0, \sigma_W^2) og Wij(2)N(0,σW2/d1)W^{(2)}_{ij} \sim \mathcal{N}(0, \sigma_W^2 / d_1), vil den lineære transformasjonen i første lag y~j=kWjk(1)xk\tilde{y}_j = \sum_k W^{(1)}_{jk} x_k følge en Gaussisk fordeling, da den er en lineær kombinasjon av Gaussiske variable. Som en funksjon av xx er y~j(x)\tilde{y}_j(x) dermed en Gaussisk prosess med null forventning og kovarians σW2xTx\sigma_W^2 x^T x'.

Aktiveringsfunksjonen σ\sigma anvendt på y~j\tilde{y}_j gjør skjult lag til yj=σ(y~j)y_j = \sigma(\tilde{y}_j), og utgangen zi=jWij(2)yjz_i = \sum_j W^{(2)}_{ij} y_j vil, i grensetilfellet der antall nevroner i laget går mot uendelig, følge en sentrert Gaussisk fordeling i kraft av sentralgrenseteoremet. Dermed definerer utgangen zi(x)z_i(x) også en Gaussisk prosess, hvor kovariansen kan uttrykkes ved forventningen E(u,v)N(0,Λ(1))[σ(u)σ(v)]\mathbb{E}_{(u,v) \sim \mathcal{N}(0, \Lambda^{(1)})}[\sigma(u) \sigma(v)], der Λ(1)\Lambda^{(1)} inneholder kovarianser basert på input xx og xx'.

Denne forståelsen lar oss generalisere til dypere nettverk med flere lag. Ved å initere vektene i alle lag med normalfordelte variable, og la antall nevroner i hvert lag gå mot uendelig, kan man rekursivt definere kovariansmatrisene i hvert lag. For laget ll blir kovariansen Σ(l)(x,x)\Sigma^{(l)}(x, x') gitt ved forventningen over aktiveringer med normalfordelte inputvariabler, normalisert med en faktor cσc_\sigma for stabilitet. Slik bygger man en fullstendig GP-kovariansfunksjon for den dype nettverksfunksjonen f(x;θ)f(x; \theta).

Denne forbindelsen mellom nevrale nettverk og Gaussiske prosesser viser at brede, tilfeldig initierte nevrale nettverk oppfører seg som stokastiske prosesser med eksplisitt kjente fordelinger, noe som åpner for en analytisk forståelse av nettverksoppførsel uten behov for trening. Samtidig gir GP-rammeverket en naturlig metode for usikkerhetsvurdering i prediksjoner, noe som ofte mangler i tradisjonell nevrale nettverkspraksis.

Det er vesentlig å forstå at denne tilnærmingen gjelder i teorien når lagene blir uendelig brede, noe som i praksis kun er en tilnærming. Likevel gir denne innsikten en kraftig bro mellom dype nevrale nettverk og Bayesianske metoder, som kan bidra til bedre modellforståelse, robusthet og tolkningsmuligheter.

Videre er det viktig å merke seg at valg av aktiveringsfunksjon og vektinitiering har stor betydning for GP-kovariansen, og dermed for nettverkets representasjonsevne og generalisering. Analytisk beregning av forventningene over aktiveringsfunksjoner med normalfordelte input er avgjørende for å bestemme nettverkets endelige GP-egenskaper. Derfor knytter denne teorien også dype nettverksdesignvalg til formelle statistiske egenskaper, noe som er sentralt for å utvikle bedre arkitekturer og forstå deres begrensninger.