Temperaturbasert sampling er en avgjørende mekanisme for å kontrollere graden av variasjon og uforutsigbarhet i tekstgenerering med rekurrente nevrale nettverk (RNN). Når temperaturen settes til null, anvendes en deterministisk strategi kjent som greedy sampling, hvor modellen alltid velger det mest sannsynlige tegnet. Dette fører til repeterende og forutsigbar tekst, ofte uten kreativ flyt. I kontrast gir temperaturverdier over null rom for stokastisk variasjon, der sannsynlighetene for neste tegn vektes om i henhold til en temperaturparameter. Ved høy temperatur (>1.0) forsterkes sjeldne valg, noe som gir modellen en "kreativ" karakter, men risikoen øker for meningsløst innhold. Lavere temperaturer (<1.0) gir mer kontrollerte resultater, der tekstflyten fortsatt er variert, men langt mer strukturert og realistisk.

Denne finjusteringen mellom determinisme og kreativitet gjør temperatur et sentralt verktøy for å styre generativ adferd. En temperatur rundt 0.8 gir ofte en god balanse og benyttes som utgangspunkt for eksperimentering. Ettersom modellen genererer tekst tegn for tegn, oppdateres inputsekvensen kontinuerlig med det nylig genererte tegnet, og prosessen gjentas iterativt.

En forutsetning for slik generering er at inputtekst først transformeres til en numerisk representasjon. Dette skjer ved hjelp av en tokeniseringsprosess, der hvert tegn eller ord mappes til et unikt heltall. Keras’ Tokenizer-klasse muliggjør både tegn- og ordnivåtolkning, og konverterer tekst til sekvenser som modellen kan prosessere. For klassifikasjonsformål representeres disse sekvensene ofte som én-hot-vektorer — binære vektorer med én aktiv komponent som identifiserer kategorien.

I stedet for å trene en innebygd representasjon (embedding) fra bunnen, kan man utnytte forhåndstrente modeller som Word2Vec og GloVe. Disse vektoriseringene er trent på enorme tekstkorpora og fanger opp semantiske relasjoner mellom ord ved hjelp av distribusjonell statistikk. Ifølge den distribusjonelle hypotesen fra lingvistikken har ord som opptrer i like kontekster tendens til å ha lignende betydninger. Ved å initialisere embeddingslaget i en RNN med slike vektorer, gir man modellen en rik semantisk forståelse allerede før treningen starter. Embeddingmatriser bygges da ved å slå opp vektorer for hvert ord i vokabularet, og modellen kan trenes videre enten med fastlåste eller finjusterbare vekter.

Et alternativ til vanlige RNN-er er GRU — Gated Recurrent Unit — som tilbyr en enklere og mer effektiv mekanisme for å håndtere lange avhengigheter i sekvensielle data. I stedet for å overføre hele skjulte tilstander ukritisk, introduserer GRU to styringsporter: oppdateringsp

Hvordan klarer Transformer-arkitekturer å forstå kompleks informasjon bedre enn andre nevrale nettverk?

Transformer-arkitekturen representerer et paradigmeskifte innen dyp læring, særlig i hvordan modeller behandler og forstår sekvensiell og kontekstuell informasjon. Det som tidligere krevde svært dype eller repeterende arkitekturer, håndteres nå effektivt gjennom selvoppmerksomhet, parallellisering og fleksibel representasjonslæring. Dette gjør transformerbaserte modeller overlegne i mange anvendelser, til tross for deres enorme kompleksitet og ressursbehov.

Transformers bygger på ideen om å kombinere flere lag av representasjoner, eller såkalte attention heads, som hver har direkte tilgang til hele inndataen. Dette gir en frihet i informasjonsflyten som tidligere modeller ikke kunne tilby. Recurrent Neural Networks (RNN) behandlet informasjon sekvensielt, der hver tilstand overføres kun til neste steg. Dette fører til en gradvis svekkelse av minnet over tid. Selv i toveis RNNs er informasjonsflyten begrenset til naboelementer. Transformers, derimot, modellerer hele sekvensen samtidig, noe som gjør dem robuste mot tidstap i representasjonen.

I motsetning til konvolusjonelle nevrale nettverk (CNNs), som er begrenset til lokale naboskap, opererer transformerens spørringer (queries), nøkler (keys) og verdier (values) på hele sekvensen samtidig. Denne globale operasjonen gir modellen evne til å forstå langtrekkende avhengigheter og bredere kontekst, enten det gjelder språk eller musikk.

Denne arkitekturen er også tilrettelagt for moderne maskinvare som GPUer og TPUer, noe som muliggjør effektiv parallellisering. Dette gir transformers en praktisk fordel i miljøer med høy regnekraft, selv om det begrenser bruken i sanntidssystemer eller på enheter med begrenset maskinvare.

En grunnleggende transformer fungerer som en sekvens-til-sekvens-modell. Kjernekomponentene – en encoder og en decoder – samarbeider på en måte som skaper rik kontekstuell forståelse. Encoderen utfører en kombinert embedding- og betingelsesprosess, mens decoderen arbeider auto-regressivt. Encoderens oppmerksomhet er global og ser på hele inndataen, mens decoderen kombinerer det tidligere genererte med encoderens utgang for å produsere nye sekvenser steg for steg.

Denne dynamikken gjør det mulig å bruke transformers i kreative applikasjoner som musikalsk improvisasjon, akkompagnement og melodigenerering. For eksempel kan en akkordprogresjon mates inn som inndata, og modellen kan generere et passende soloparti som respons. Decoderen flytter et steg tilbake for å bruke sin forrige utgang sammen med encoderen, en prosess som ligner seq2seq-RNN-arkitekturer, men med betydelig forbedret kapasitet for langtidssammenheng.

En viktig egenskap ved transformerarkitekturen er evnen til å lære struktur uten eksplisitt input. Modeller som OpenAI GPT er trent uten encoder og bruker i stedet maskert selvoppmerksomhet, der modellen kun får tilgang til tidligere tokens i sekvensen. Dette gjør det mulig å generere tekst eller musikk uten ekstern betinging, noe som understøtter både frie og styrte kreative prosesser.

Transformerens fleksibilitet åpner også for avanserte generative oppgaver utover enkel fortsettelse av sekvenser. Modellen kan rekonstruere manglende deler i uferdige musikalske skisser, generere variasjoner ved å utelate segmenter, eller fylle inn melodi når kun rytme er gitt. I slike anvendelser fungerer ikke neste-token-prediksjon som hovedmål, men heller det å rekonstruere manglende informasjon ved hjelp av kontekst, i tråd med prinsippene bak GloVe og word2vec-modellene.

Både BERT og Magenta’s Music Transformer viser hvordan selvoppmerksomhet kan tilpasses ulike oppgaver. Der BERT bruker maskert selvoppmerksomhet i decoderen for å forutsi manglende tokens, bruker Magenta en decoder-only struktur for å generere ekspressiv musikk, med timing og dynamikk. Slike modeller lærer på usupervisert vis, og kan produsere nye komposisjoner ved prøvetaking av den innlærte distribusjonen.

Transformerens evne til å håndtere input som en database – der nøkler representerer funksjoner og verdier inneholder data – gir en nyttig metafor. Oppmerksomhet blir da en metode for informasjonsgjenfinning, hvor en spørring matches med relevante nøkler og tilhørende verdier kombineres for å produsere utdata. Dette kan være en enkel topp-match eller en vektet sum av relevante nøkler, der flere attention heads gir modellens ulike perspektiver på samme data.

Denne databaselignende tilnærmingen frigjør modellen fra krav om fast input-størrelse og gir mulighet for å tilpasse spørringer etter innhold, ikke struktur. Det blir også mulig å finne relasjoner mellom ulike datatyper gjennom passende utforming av nøkler og spørringer, noe som åpner for avanserte multimodale applikasjoner.

Det som er viktig å forstå, er at transformerens styrke ikke bare ligger i arkitekturen som sådan, men i måten informasjon organiseres og hentes frem. Oppmerksomhet er ikke bare en teknikk – det er en strategi for informasjonsøkonomi, der modellens oppmerksomhet styres mot det som er mest mening

Hvordan styres diffusjonsmodeller med tekst- og ikke-tekstbetingelser?

Lærbare projeksjonsmatriser WK, WV brukes til å transformere både den innebygde funksjonskartet og tekstinnbeddingene til henholdsvis query (Q), key (K) og value (V)-matriser. Dimensjonen d representerer størrelsen på query- og key-vektorene. Både det støyfylte funksjonskartet (Zt) fra diffusjonsprosessen og tekstinnbeddingene (Etext) fra CLIP transformeres via lærbare funksjoner (φ(·) og τ(·)) til et egnet latent rom. Disse innbeddingene projiseres så inn i Q, K og V ved hjelp av projeksjonsmatriser som trenes under modellen.

Oppmerksomhetsmekanismen beregner deretter likheten mellom query og key ved hjelp av et skalert prikkprodukt, og softmax-funksjonen normaliserer disse likhetene til oppmerksomhetsvekter. Vektene brukes til å beregne en vektet sum av value-matrisen, som utgjør kontekstvektoren. Denne kontekstvektoren inneholder relevant informasjon fra tekstprompten og styrer bilde- eller data-genereringsprosessen.

Alternativt kan FiLM (Feature-wise Linear Modulation) brukes for å modifisere funksjonene i hvert lag i en Latent Diffusion Model (LDM). Her skaleres og flyttes funksjonene basert på betingelsesinformasjonen, som kan være lydinnbedding under trening eller tekstinnbedding under sampling. Parametrene for skalering og forskyvning (γ og β) predikeres fra betingelsesinnbeddingen, noe som gir en direkte kontroll over informasjonsflyten i hvert lag og dermed over genereringsprosessen.

AudioLDM og Stable Diffusion bruker begge U-Net-arkitekturer, men med distinkte forskjeller. AudioLDM anvender konvolusjonslag for behandling av lyd, representert som mel-spektrogrammer, mens Stable Diffusion kombinerer konvolusjonslag i start- og sluttsjikt med Vision Transformers (ViTs) i de midtre lagene. ViTs er spesielt egnet til å fange langtrekkende avhengigheter i bildeinformasjon, noe som er avgjørende for sammenhengende bildegenerering.

En vesentlig dimensjon i diffusjonsmodeller er forskjellen mellom kontinuerlige og diskrete latente rom. Både Stable Diffusion og AudioLDM benytter kontinuerlige latente rom, lært av en variational autoencoder (VAE). I AudioLDM komprimerer VAE lydens mel-spektrogram til et latent rom som gjør modelleringen effektiv, mens i Stable Diffusion kodes bilder til et latent rom som U-Net bruker for den støyreduserende diffusjonsprosessen. DiffSound bruker derimot et diskret latent rom gjennom en vektor-kvantifisert VAE (VQ-VAE), som mapper kontinuerlige representasjoner til et endelig sett av diskrete kodebøker. Kontinuerlige rom muliggjør mer fleksibel interpolasjon og manipulering, noe som egner seg til oppgaver som bilde-redigering og stiloverføring, mens diskrete rom kan være fordelaktige ved komprimering eller modellering av inherently diskrete data som språk, men kan føre til tap av informasjon eller artefakter.

Tekstpromptene har revolusjonert kreativ AI, men diffusjonsmodeller omfavner nå i økende grad ikke-tekstuelle betingelser for økt kontroll og kreativitet. To fremtredende metoder er ControlNet og Adapters. ControlNet utvider forhåndstrente tekst-til-bilde-modeller som Stable Diffusion ved å legge til en parallell trenbar kopi av kodingslagene, som mottar ulike romlige innganger som kanter, dybdekart, segmenteringskart eller menneskeposer. Gjennom “zero convolutions” kobles denne trenbare kopien til den faste modellen, noe som tillater injisering av spesifikke romlige betingelser uten å endre de opprinnelige vektene. Zero convolution-lagene initialiseres med nullvekter og nullbias, slik at de ved start av trening ikke påvirker beregningen, men lærer gradvis hvordan de skal modifisere funksjonskartene basert på betingelsene.

Adapters, med opprinnelse i naturlig språkprosessering, gir en modulær og effektiv måte å spesialisere forhåndstrente modeller uten omfattende omtrening. Små lag settes inn i modellens arkitektur og kan håndtere ikke-tekstuelle betingelser i diffusjonsmodeller, som for eksempel T2I-Adapters som finjusterer tekst-til-bilde-modeller til eksterne kontrollsignaler som skisser eller dybdekart. Dette muliggjør finmasket kontroll over farge, struktur og komposisjon, og lar brukeren forme det genererte innholdet mer presist.

Matematisk uttrykkes ControlNet som en modifisering av et funksjonskart x gjennom summen av den originale nettverksblokken F (·; Θ) og en parallell trenbar blokk med parametere Θc, koblet via to zero convolution-lag Z(·; ·). Den betingede vektoren cf er kodet fra et betingelsesbilde ci gjennom en konvolusjonsnettverk E(·). Opplæringsmålet for diffusjonsmodellen forblir det samme som i standard diffusjonslæring, hvor modellen lærer å predikere støynivået på ulike tidspunkter t. Under trening blir halvparten av tekstpromptene tilfeldig erstattet med tomme strenger for å tvinge ControlNet til å gjenkjenne semantisk innhold direkte fra den visuelle betingelsen.

Det er viktig å forstå at bruken av både tekstlige og ikke-tekstlige betingelser åpner for en langt mer nyansert kontroll over genereringsprosessen i diffusjonsmodeller. Mens tekst ofte gir konseptuell veiledning, tilbyr ikke-tekstlige betingelser romlige og strukturelle data som presist kan styre form, farge og komposisjon. Zero convolution-lagene er essensielle for å integrere ny betingelsesinformasjon uten å forstyrre det opprinnelige, forhåndstrente nettverket, noe som gjør det mulig å bygge videre på eksisterende modeller uten å miste deres styrker. Videre kan forståelsen av forskjellen mellom kontinuerlige og diskrete latente rom hjelpe til med å velge riktig arkitektur for den spesifikke applikasjonen, enten det handler om fleksibel generering og manipulering eller effektiv komprimering og diskret datahåndtering.

Hvordan kan Shapley-verdier sikre rettferdig fordeling i komplekse koalisjoner?

Shapley-verdier gir en matematisk rettferdig metode for å fordele gevinst eller verdi mellom aktører i en koalisjon, basert på deres marginale bidrag til hver mulig delkoalisjon. Verdien til en spiller kan være høyere eller lavere enn deres individuelle bidrag, avhengig av spillets struktur og synergiene mellom spillerne. Shapley-verdier er konstruert ved å ta gjennomsnittet av en spillers marginale bidrag i alle mulige grupper av spillere, noe som sikrer at hver aktør får sin rettmessige andel.

I situasjoner hvor totalverdien av en koalisjon overstiger summen av de individuelle verdiene, tar Shapley-verdien hensyn til synergier som skapes når aktørene samarbeider. Dette gjør metoden spesielt relevant i tilfeller som ikke bare handler om additiv fordeling, men også om interaksjoner og samarbeidseffekter. I enkelte tilfeller kan noen aktører også få negative verdier, noe som reflekterer at deres tilstedeværelse kan redusere den totale gevinsten.

Et eksempel på anvendelse av Shapley-verdier finner vi i klassiske problemer for fordeling av eiendeler når kravene overstiger tilgjengelige ressurser, slik som konkursoppgjør. Et kjent tilfelle er “Contested Garment Problem” fra det jødiske Talmud, hvor to parter gjør ulike krav på en enkelt gjenstand. Løsningen som gis i Talmud baserer seg på at den delen som kun én part krever, tilordnes denne parten, mens den omstridte delen deles likt. Dette gir en fordeling på henholdsvis tre fjerdedeler og en fjerdedel av verdien. Shapley-verdien bekrefter denne løsningen gjennom en matematisk presis beregning av hver parts marginale bidrag.

En annen intuitiv måte å forstå Shapley-verdier på er “løpet til banken”-metaforen. Her ankommer kravstillerne tilfeldig for å kreve sin andel fra en felles pool. Den første som kommer, tar det som er tilgjengelig innenfor sitt krav, den neste tar deretter det som gjenstår, og så videre. Siden ankomstrekkefølgen er tilfeldig, beregner Shapley-verdien forventningen over alle mulige rekkefølger, noe som sikrer en rettferdig fordeling basert på sannsynligheten for ulike situasjoner.

Når det gjelder beregning av Shapley-verdier, finnes to hovedmetoder: én basert på alle mulige delmengder av spillere (subsets) og én basert på alle mulige permutasjoner av spillere. Begge metodene vurderer en spillers marginale bidrag, men med forskjellig fokus på hvordan bidraget tilskrives i ulike kontekster. Subsets-metoden har kompleksitet som vokser eksponentielt med antall spillere, mens permutasjonsmetoden vokser enda raskere, noe som gjør effektiv beregning utfordrende for store koalisjoner.

Shapley-verdier har også funnet praktisk anvendelse i forklarbar kunstig intelligens (XAI), spesielt i SHAP-rammeverket. Her brukes Shapley-verdier for å tilskrive bidraget til hver funksjon i en modell, slik at man kan forstå hvilke inputvariabler som har størst effekt på modellens prediksjon. Dette baseres på tre egenskaper: lokal nøyaktighet (summen av bidragene må forklare modellens output), fravær av bidrag fra manglende funksjoner, og konsistens (om en funksjon får større marginale bidrag i en modell, skal dens Shapley-verdi ikke reduseres).

For å gjøre dette praktisk mulig, benytter SHAP en tilnærming hvor funksjonsverdiene estimeres som betingede forventninger over ulike sett av inputvariabler. En effektiv implementasjon, Kernel SHAP, løser en optimaliseringsproblem

Hva er sentralt i moderne dyp læring og maskinlæring?

Moderne dyp læring bygger på en kompleks sammensetning av metoder som i fellesskap muliggjør treningen av nevrale nettverk med mange lag og enorme datamengder. Fundamentalt handler dette om å optimalisere komplekse funksjoner i høydimensjonale rom, ofte ikke-konvekse, noe som krever sofistikerte algoritmer for å oppnå stabile og generaliserbare resultater. Optimaliseringsteknikker som stokastisk gradientnedstigning og dens varianter er sentrale, og nyere forskning fokuserer på å forstå og forbedre konvergenshastigheten og robustheten i disse metodene, som illustrert av bidragene fra Bottou, Curtis og Nocedal (2018).

Dyp læring benytter også ulike arkitekturer, blant annet konvolusjonsnettverk (CNN) og transformer-modeller, som hver har sine styrker. For eksempel har transformer-arkitekturer revolusjonert naturlig språkbehandling ved å utnytte selvoppmerksomhetsmekanismer som muliggjør kontekstforståelse på tvers av lange sekvenser, slik det er demonstrert i modeller som BERT (Devlin et al., 2019) og i nyere arbeid innen bilderegnskap (Dosovitskiy et al., 2021). Den banebrytende utviklingen av generative modeller, som generative adversarial nets (Goodfellow et al., 2014) og nyere diffusion-modeller (Dhariwal og Nichol, 2021), har utvidet mulighetene for syntese og kreativ anvendelse av maskinlæring.

Informasjonsteori spiller en vesentlig rolle for forståelsen av læringsprosesser. Mutual information neural estimation (Belghazi et al., 2018) gir metoder for å estimere avhengigheter mellom variabler i nevrale nettverk, noe som er kritisk for å forbedre representasjonslæring og generalisering. Dette knyttes også til begreper som fri energi og perceptuelle koder (Frey og Hinton, 1996; 1997), som danner teoretiske rammeverk for forståelsen av hvordan nevrale nettverk kan representere og komprimere informasjon effektivt.

Videre er det viktig å forstå at dyp læring ikke bare handler om arkitektur, men også om treningsstrategier og reguleringsteknikker som batch normalisering (Ioffe og Szegedy, 2015), residualtilkoblinger (He et al., 2016) og finjustering av store modeller (Han et al., 2024). Disse metodene adresserer problemer som forsvinnende gradienter, overtilpasning og ressursbruk, og muliggjør dermed dypere og mer komplekse nettverk.

Innenfor mønstergjenkjenning og maskinlæring som helhet har grunnleggende verker som Bishop og Nasrabadi (2006) og Cover og Thomas (1991) lagt grunnlaget for hvordan vi formelt kan forstå og håndtere usikkerhet, generalisering og optimalisering. Det å integrere denne teoretiske forståelsen med praktiske metoder er essensielt for videre utvikling og anvendelse.

For å få fullt utbytte av denne teknologiske utviklingen er det viktig å ikke overse betydningen av dataens kvalitet og representativitet, samt etiske og samfunnsmessige implikasjoner. Maskinlæringens kraft og rekkevidde øker kontinuerlig, og det krever derfor både teknisk innsikt og kritisk refleksjon for å sikre at metodene anvendes ansvarlig og til samfunnets beste.