Bruken av nevrale nettverk som Transformer-modeller i musikalsk sammenheng har revolusjonert måten vi kan representere og manipulere musikalske data på. Transformere fungerer som en kompleks måte å fange opp relasjoner i data, både i symbolske representasjoner som MIDI og i lydsignaler som bølgeformer og spektrogrammer. En av de mest utbredte anvendelsene er generering av musikalsk materiale – der man gir et utgangspunkt, et såkalt "seed", og lar modellen fortsette eller variere dette.

Denne genereringen skjer ikke bare som en simpel fortsettelse, men også som en mulighet til å skape variasjoner ved hjelp av BERT-lignende modeller som kan fylle inn eller erstatte deler av sekvenser. Dette åpner for en rikdom i kreativitet ved at modellen ikke bare følger en sekvens, men kan omforme den melodisk, harmonisk eller rytmisk. Det ligger også et stort potensial i hvordan slike representasjoner kan gjenbrukes i nye sammenhenger, for eksempel gjennom transfer learning. Her tar man en modell som allerede er trent på én oppgave, og tilpasser de siste lagene til en ny oppgave, uten å endre de underliggende lagene. Dette muliggjør effektiv læring selv med begrenset data til den nye oppgaven.

I en videre dimensjon av dette ligger reprogrammering, som innebærer å endre både input og output til nettverket, mens de midtre lagene forblir uendret. Dette kan brukes til nye og uventede formål, noen ganger med etiske utfordringer dersom det skjer i ondsinnet hensikt. Samtidig utvider reprogrammering vår forståelse av nettverkets representasjonsevne, ved at den viser hvordan en modell kan håndtere oppgaver på tvers av ulike domener, for eksempel mellom tekst og bilde eller mellom lyd og symbolikk. Det antyder at Transformers har en iboende evne til å oppdage selvlikheter og repetisjoner som kan være grunnleggende både for kunstig og menneskelig intelligens.

Spesielt ved inngangslaget, embedding-laget, blir rå data oversatt til en vektorromsrepresentasjon hvor likheter i mening eller funksjon blir plassert nær hverandre. Dette er avgjørende for at oppmerksomhetsmekanismen (attention) i de påfølgende lagene skal kunne fange opp og utnytte slike relasjoner. For musikk kan dette bety at noter, akkorder eller rytmemønstre som opptrer i lignende sammenhenger, får nær plassering i dette rommet, noe som muliggjør mer presis modellering av musikalsk struktur.

Analogien med visuell data og konvolusjonsnettverk illustrerer hvordan det første laget i et nettverk ofte lærer grunnleggende mønstre som kan sammenlignes med kantdetektorer i menneskelig syn. Transformere i visuell kontekst gir til og med tidlig tilgang til interaksjoner på tvers av hele bildet, noe som kan forklare deres overlegne ytelse i mange oppgaver. Innen lyd og musikk er forskningen på tilsvarende prosesser fortsatt i startfasen, men empiriske resultater bekrefter viktigheten av disse arkitekturene.

Transformerens utgangslag gir ofte en "embedding" som oppsummerer hele sekvensen – en form for kompakt representasjon som på en måte fanger essensen eller intensjonen bak musikken, og dermed kan sees på som en slags "komponistens sinn". Dette er en oppgave som tidligere arkitekturer som RNN med gating-mekanismer og attention ikke kunne løse like effektivt.

Det som er vesentlig å forstå, er at Transformer-modeller ikke bare er en ny arkitektur, men representerer en ny måte å betrakte data på: som komplekse relasjoner og selvlikheter som kan brukes på tvers av domener. Dette gir ikke bare økt presisjon i musikalsk generering og analyse, men åpner også for nye tilnærminger til læring og gjenbruk av kunnskap, som er essensielt i situasjoner med begrenset data. At slike modeller kan tilpasses til svært forskjellige oppgaver uten omfattende ny trening, antyder at de fanger en underliggende universell struktur i informasjon.

Det er også viktig å merke seg at embedding-lagets utforming og kvalitet er avgjørende for modellens evne til å forstå og manipulere data. Hvordan denne representasjonen bygges opp og hvordan den samvirker med oppmerksomhetsmekanismen, er fremdeles et aktivt forskningsfelt, særlig innen musikk og lyd hvor strukturen i data er kompleks og flerfoldig.

Til slutt må leseren forstå at selv om transformerens kraft og effektivitet kan virke tilsynelatende magisk, bygger den på en dypere forståelse av hvordan informasjon kan struktureres og relateres, og hvordan selvlikhet og repeterende mønstre utgjør kjernen i mange former for intelligens. Denne innsikten gir også et etisk ansvar når man bruker og eventuelt modifiserer slike modeller, særlig med tanke på reprogrammering og mulige misbruk.

Hvordan lærer AlphaGo Zero å spille bedre uten menneskelig hjelp?

I kjernen av AlphaGo Zero og AlphaZero ligger en uavhengig læringsprosess som kombinerer selvspill, dyp nevrale nettverk og Monte Carlo-tresøk (MCTS). Denne kombinasjonen tillater en modell å utvikle spillstrategier på et nivå som tidligere krevde omfattende menneskelig ekspertise. I motsetning til tidligere tilnærminger som var avhengige av eksterne datasett og eksperttrekk, starter denne metoden fra null – kun med reglene for spillet og et mål: å vinne.

Prosessen starter med generering av selvspillsekvenser, hvor hvert spill produserer en rekke bretttilstander s1,s2,,sTs_1, s_2, \ldots, s_T til en vinner er identifisert. Til hver tilstand assosieres en søkesannsynlighet πt\pi_t, som matcher dimensjonene til brettet pluss en passering (19×19+119 \times 19 + 1). I tillegg får man et utfall zz fra spillet, som forteller hvem som vant. Disse tre komponentene – π\pi, zz og tilstanden – danner treningsgrunnlaget for det nevrale nettverket.

Treningen skjer ved å minimere et tapsuttrykk som kombinerer forskjellen mellom nettverkets vurdering og faktisk utfall (zv)2(z - v)^2, et entropi-tap knyttet til policy-sannsynlighetene πlogp- \pi \log p, og en regulariseringsterm cθ2c\|\theta\|^2 for å forhindre overtilpasning. Dette tillater nettverket å lære både hvilke trekk som er mest lovende, og hvordan det skal evaluere brettstillinger.

AlphaGo Zero bruker en eksplisitt sjekkpunktstrategi hvor ytelsen til det nåværende nettverket evalueres etter hver 1000. treningsiterasjon. Ved å spille mot den hittil beste modellen, bestemmes det om den nye versjonen har overlegen ytelse. I så fall erstatter den den tidligere modellen. I AlphaZero er denne evalueringen mer kontinuerlig og integrert: den nyeste modellen brukes alltid i selvspill, og oppdateringer skjer periodisk gjennom en vektet blanding av gamle og nye parametere, betinget av seiersprosenten i intern konkurranse.

Selve beslutningstakingsmekanismen i AlphaGo Zero er Monte Carlo Tree Search (MCTS), styrt av det trenede nettverket. MCTS søker etter trekk som maksimerer en kombinasjon av forventet utfall Q(s,a)Q(s,a) og en øvre konfidensgrense U(s,a)U(s,a), som stimulerer utforsking av lite prøvde handlinger. Algoritmen starter ved rotpunktet og bygger treet ved å selektere, ekspandere og evaluer