Ved å projisere en vektor på en basisfunksjon, oppnår vi størst projeksjon når vektoren er rettet langs basisfunksjonen. Dette tilsvarer at projeksjonen er proporsjonal med cosinus til vinkelen mellom vektoren og basisfunksjonen, og er maksimal når vinkelen er null. Valg av K egenvektorer til kovariansmatrisen ΣXX med de største egenverdiene gir den beste mulige kodingen av dataene i et lavere K-dimensjonalt rom. Feilen som oppstår ved denne reduksjonen tilsvarer summen av egenverdiene til de dimensjonene som ikke inkluderes. I praksis er imidlertid denne optimale situasjonen ikke alltid garantert i nevrale nettverk, hvor optimeringsprosessen kan sette seg fast i lokale ekstremalpunkter, til tross for at problemet i teorien er konvekst med et unikt globalt minimum.
Fordelene ved å bruke en lukket form løsning som PCA i stedet for gradientbaserte autoenkodere, inkluderer tilgjengeligheten av effektive algoritmer for å finne egenvektorer, som ofte er raskere enn gradientmetoder. Videre, gitt tilstrekkelig data og en god estimering av kovariansen, vet vi at PCA gir en optimal løsning. PCA gir også bedre intuitiv forståelse av latent representasjon, mens nevrale nettverk ofte fungerer som en “black box”. Likevel har PCA betydelige begrensninger sammenlignet med ikke-lineære autoenkodere. Ved å tillate ikke-lineære funksjoner å behandle kodings- og dekodingsvektorer, kan autoenkodere redusere dimensjonalitet i flere trinn, noe som ikke er mulig med lineær reduksjon. Lineær reduksjon, som PCA, kan alltid representeres som én enkelt matrise, mens flere lag med ikke-lineære transformasjoner kan fange opp mye mer kompleks struktur i dataene.
Lineære autoenkodere med flaskehalsarkitektur og kvadratisk tapsfunksjon oppfører seg ofte likt som PCA, da minimering av feil driver modellen til å finne en subrom representert av de mest betydningsfulle hovedkomponentene i dataene. Ikke-lineære autoenkodere, derimot, kan lære langt kraftigere representasjoner, noe som kan betraktes som en generalisering av PCA. Ikke-lineariteten muliggjør gradvis reduksjon i kompleksiteten gjennom flere lag og gir rom for svært komplekse avbildninger mellom input og latent representasjon.
Et problem med kraftige autoenkodere er tendensen til å overtilpasse treningsdataene, altså memorere input uten å lære meningsfull statistikk om datafordelingen. Dette kan motvirkes ved ulike regulariseringsteknikker. En elegant løsning er bruk av den støyrensende autoenkoderen (denoising autoencoder), som i stedet for å få som input det rene datasettet, mottar en korrupt eller støyet versjon og trenes til å rekonstruere det opprinnelige, rene datasettet. Denne tilnærmingen kan forstås som en projeksjon tilbake på en lavdimensjonal, jevn manifold der dataene antas å ligge. Støy fører data ut i retninger ortogonale til manifolden, og autoenkoderen lærer å rense bort støyen, og dermed fange den underliggende strukturen i dataene.
Den matematiske formalismen viser at rekonstruksjonen fra en denoising autoenkoder er et estimat av forventningsverdien for rene datapunkter gitt et støyet observasjonspunkt, noe som kan tolkes som en sentroidsberegning i et sannsynlighetsrom definert av forurensningsmodellen. Denne egenskapen gjør denoising autoenkodere kraftige verktøy for å lære robuste og meningsfulle representasjoner, spesielt i høy-dimensjonale data der den underliggende manifolden har lavere dimensjonalitet.
I praktisk implementasjon, som i PyTorch-eksemplet med Fashion MNIST, defineres separate klasser for encoder og decoder, som sammen utgjør autoenkoderen. Encoder reduserer dimensjonaliteten fra 784 (for bilder på 28x28 piksler) til latent dimensjon, mens decoder rekonstruerer bildet fra latent representasjon. Modellen trenes ved hjelp av Adam-optimizer og mean squared error-tap, og kan evaluere kvaliteten på rekonstruksjonene etter trening. Denne tilnærmingen kan lett utvides til å inkludere ikke-lineære aktiveringsfunksjoner, batchnormalisering og flere lag, som gir økt representasjonskraft og fleksibilitet.
Det er vesentlig å forstå at selv om autoenkodere kan lære komplekse representasjoner, er valg av arkitektur, tapsfunksjon og treningsmetode avgjørende for modellens evne til å generalisere og ikke bare memorere data. Kombinasjonen av lineær algebra og sannsynlighetsmodellering gir en solid teoretisk basis for å forstå både PCA og autoenkodere, mens moderne teknikker som denoising og variational autoencoders bygger videre på denne forståelsen for å utvikle mer robuste og nyttige representasjoner av data.
Hvordan forbedrer ResNet treningen av nevrale nettverk og hva er CNNs anvendelser?
ResNet introduserer en betydelig forbedring i treningen av dype nevrale nettverk gjennom bruk av såkalte skip connections, eller hoppkoblinger. Disse hoppkoblingene tillater at informasjon kan flyte uhindret gjennom flere lag, noe som effektivt hindrer problemet med forsvinnende gradienter som ofte oppstår i veldig dype nettverk. Et direkte resultat av dette er en mye jevnere tapsfunksjonslandskap (loss landscape). Dette har blitt demonstrert av Li et al. (2018) gjennom visualiseringer som tydelig viser hvordan nettverk med hoppkoblinger har et mer oversiktlig og treningsvennlig landskap sammenlignet med vanlige konvolusjonsnettverk uten slike koblinger. En jevnere tapsfunksjonslandskap gjør at optimaliseringsprosessen unngår bratte daler og skarpe kanter, og dermed blir treningen mer stabil og effektiv.
Når det gjelder anvendelser av konvolusjonsnevrale nettverk (CNN), er klassifikasjon og regresjon blant de mest grunnleggende bruksområdene. CNNs evne til å fungere som effektive funksjonsuttrekkere gjør dem godt egnet for både klassifikasjonsoppgaver, hvor målet er å kategorisere data, og regresjonsoppgaver, hvor nettverket lærer å forutsi kontinuerlige verdier. For eksempel innen scene-gjenkjenning analyserer CNN objekter, teksturer og romlige relasjoner i bilder for å automatisk bestemme typen scene. Store datasett som Places365, med millioner av bilder kategorisert i hundrevis av scener, gir grunnlag for trening og evaluering av slike modeller.
Innen fotovurdering brukes CNN som regresjonsmodeller som kan evaluere estetisk kvalitet på bilder, basert på datasett som AVA (Aesthetic Visual Analysis), hvor bilder er merket med kvalitetsvurderinger fra fotografer. Dette demonstrerer CNNs fleksibilitet, da den her anvendes for en oppgave som krever en finjustert vurdering snarere enn diskret klassifisering.
Ansiktsgjenkjenning representerer en mer kompleks utfordring. Her må CNN kunne identifisere personer til tross for variasjoner i posisjon, belysning og uttrykk. Datasett som Celebrities in Frontal-Profile (CFP) viser nødvendigheten av å håndtere forskjellige vinkler, hvor teknikker som å projisere profilbilder til frontale ansikter har blitt utviklet for å forbedre nøyaktigheten. Videre står ansiktsgjenkjenningssystemer overfor sikkerhetsutfordringer, blant annet spoofing-angrep som forsøker å narre systemene med falske bilder eller masker. Avanserte metoder har blitt utviklet for å detektere slike angrep ved å identifisere uregelmessigheter eller støy i bildene.
I tillegg er CNNs sårbarhet for adversarielle angrep et viktig forskningsfelt. Allerede i tidlige studier ble det vist at små, målrettede forstyrrelser i input-bildet kan føre til at nettverket gjør feilklassifiseringer med høy sikkerhet. Slike angrep krever utvikling av robuste modeller som kan motstå manipulasjoner.
Innen objektgjenkjenning kombineres klassifikasjon og lokalisering, hvor nettverket ikke bare identifiserer objekter, men også deres eksakte posisjon i bildet. Tidlige metoder som R-CNN viste hvordan regionforslag kan genereres og klassifiseres separat, men var tidkrevende. Fast R-CNN introduserte deling av konvolusjonslag og bruk av max pooling i underregioner, noe som drastisk forbedret effektiviteten og la grunnlaget for sanntidsapplikasjoner.
Det er viktig å forstå at både treningsprosessen og anvendelsesområdene for CNNer er dypt sammenvevd med hvordan arkitekturen er designet for å håndtere utfordringer i data, som variasjoner, støy og sikkerhetstrusler. Bruken av skip connections i ResNet er et arkitektonisk paradigmeskifte som har åpnet dørene for svært dype nettverk som er både trenbare og effektive. Videre krever anvendelser som ansiktsgjenkjenning og objektlokalisering en nøye balanse mellom nøyaktighet, robusthet og beregningseffektivitet, noe som gjenspeiles i utviklingen av stadig mer sofistikerte metoder.
Det er også sentralt å merke seg at tilgangen på store, godt annoterte datasett har vært en avgjørende faktor for fremgangen innen dyp læring i visuelle oppgaver. Datasett som Places365 og AVA gir ikke bare grunnlaget for trening, men fungerer også som benchmark for evaluering av nye metoder. Dette understreker viktigheten av data i utviklingen av kunstig intelligens.
Til slutt, robusthet mot angrep og feil er ikke bare et spørsmål om sikkerhet, men også om pålitelighet og anvendbarhet i virkelige scenarier. Fremtidig forskning vil fortsette å fokusere på metoder for å styrke CNNs evne til å generalisere under vanskelige og uforutsigbare forhold, samtidig som man opprettholder høy ytelse.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский