Hur backpropagation och gradientnedstigning tränar neurala nätverk

Vid träning av neurala nätverk är förutsättningen att korrekt justera nätverkets parametrar (vikter och förskjutningar) för att minimera felaktigheter i förutsägelserna. Detta sker genom en process där nätverket upprepade gånger justerar sina parametrar baserat på beräkningarna från två huvudfaser: framåtpassering och bakåtpassering, och där gradientnedstigning spelar en central roll.

I framåtpasseringen beräknas aktiveringen för varje lager i nätverket. För lager $l$ beräknas föraktiveringen $z^{(l)}$ enligt formeln:

z^{(l)} = W^{(l)} a^{(l-1)} + b^{(l)},

där $a^{(l-1)}$ är aktiveringen från föregående lager och $W^{(l)}$ är viktmatrisen som kopplar samman lager $l-1$ och $l$ . Aktiveringen $a^{(l)}$ för lager $l$ beräknas genom att applicera en aktiveringsfunktion elementvis på $z^{(l)}$ :

a^{(l)} = f(z^{(l)}),

och nätverkets slutgiltiga output ges av aktiveringen $a^{(L)}$ vid det sista lagret, vilket är den förutspådda outputen $y(i)$ :

y(i) = a^{(L)}.

Bakåtpasseringen är en process där gradienter beräknas för varje parameter (vikter och förskjutningar) i nätverket för att justera dessa parametrar så att felaktigheter i nätverkets förutsägelser minimeras. Först beräknas felet vid outputlagret. Om $\delta^{(L)}$ representerar felet vid lagret $L$ , så beräknas detta genom att ta derivatan av förlustfunktionen med avseende på aktiveringarna vid outputlagret:

\delta^{(L)} = \nabla_a J \cdot f'(z^{(L)}),

där $f'(z^{(L)})$ är derivatan av aktiveringsfunktionen applicerad på $z^{(L)}$ . För att beräkna felet vid dolda lager används kedjeregeln:

\delta^{(l)} = (W^{(l+1)})^T \delta^{(l+1)} \cdot f'(z^{(l)}),

vilket gör att felet kan propageras bakåt genom nätverket.

När felen har beräknats för alla lager, kan gradienter av förlustfunktionen med avseende på nätverksparametrarna beräknas. Gradienterna för vikterna och förskjutningarna beräknas som:

\frac{\partial J}{\partial W^{(l)}} = \frac{1}{N} \sum_{i=1}^N \delta^{(l)} (a^{(l-1)})^T,

och

\frac{\partial J}{\partial b^{(l)}} = \frac{1}{N} \sum_{i=1}^N \delta^{(l)}.

När dessa gradienter har beräknats, uppdateras parametrarna med hjälp av en optimeringsalgoritm, som till exempel gradientnedstigning. Uppdateringsreglerna för vikterna och förskjutningarna är:

W^{(l)} \leftarrow W^{(l)} - \eta \frac{\partial J}{\partial W^{(l)}},

b^{(l)} \leftarrow b^{(l)} - \eta \frac{\partial J}{\partial b^{(l)}},

där $\eta$ är inlärningshastigheten som styr stegstorleken i uppdateringen.

Denna process av framåtpassering, bakåtpassering och parameteruppdatering upprepas över flera epoker, där varje epok består av en framåtpassering, en bakåtpassering och en parameteruppdatering, tills nätverket konvergerar till ett lokalt minimum av förlustfunktionen. Vid varje steg av bakåtpasseringen appliceras kedjeregeln rekursivt för att propagera felet bakåt genom nätverket och justera varje vikt och förskjutning för att minimera den totala förlusten.

En viktig aspekt av denna process är derivatan av aktiveringsfunktionen $f'(z^{(l)})$ . Den styr hur felet moduleras vid varje lager. Valet av aktiveringsfunktion (t.ex. ReLU, sigmoid eller tanh) har en direkt påverkan på inlärningsdynamiken och konvergenshastigheten för nätverket.

Förutom de grundläggande stegen i backpropagation och gradientnedstigning, finns det också en mängd varianter av gradientnedstigning som kan förbättra effektiviteten i träningsprocessen. Till exempel, i stället för att använda fullständig batchgradientnedstigning, där uppdateringarna görs baserat på hela träningsdatauppsättningen, används stochastisk gradientnedstigning (SGD), som gör uppdateringar baserat på en slumpmässig datapunkt. Detta inför en viss varians i uppdateringarna, vilket hjälper nätverket att undvika att fastna i sadelpunkter där gradienten är noll men krökningen är blandad.

För att hitta en balans mellan effektivitet och stabilitet används ofta mini-batch SGD, där uppdateringar görs baserat på ett slumpmässigt urval av datapunkter. Dessutom har metoder som momentum visat sig accelerera konvergensen genom att ta hänsyn till tidigare gradienter, vilket gör att nätverket kan "glida" snabbare i riktningarna med låg krökning och dämpa svängningar i riktningarna med hög krökning.

Adaptiva inlärningshastigheter, såsom AdaGrad, RMSProp och Adam, finjusterar inlärningshastigheten för varje parameter. Adam är en populär metod som kombinerar fördelarna med momentum och adaptiva inlärningshastigheter, vilket gör att det kan anpassa sig till olika inlärningstakt för varje parameter samtidigt som det accelererar konvergensen.

Dessa varianter av gradientnedstigning, tillsammans med backpropagation, utgör ryggraden i träningsprocessen för neurala nätverk och gör det möjligt för nätverket att lära sig effektivt från träningsdata. Träningen är en iterativ process som gradvis minskar felet genom att justera parametrarna, vilket leder till bättre prestanda och mer precisa förutsägelser.

Hur konvolutionella neurala nätverk används inom medicinsk bildbehandling för objektigenkänning och diagnos

Konvolutionella neurala nätverk (CNN) har blivit ett oumbärligt verktyg inom medicinsk bildbehandling, tack vare deras förmåga att automatiskt lära sig rumsliga hierarkier av funktioner direkt från bilddata utan att kräva handgjord funktionsextraktion. CNN:s konvolutionslager är designade för att utnyttja den rumsliga strukturen i ingångsdata, vilket gör dem särskilt väl lämpade för uppgifter där rumsliga relationer i bilder ofta bär på viktig diagnostisk information.

Den grundläggande byggstenen för CNN är konvolutionsoperationen, som matematiskt uttrycks som:

S(i,j) = I(i + m, j + n) \cdot K(m, n)

där

S(i, j)

representerar värdet för utdata-funktionens kartläggning vid positionen

(i,j)

I(i, j)

är den ingående bilden,

K(m, n)

är den konvolutionella kärnan (en lärbar viktmatris), och

k

betecknar kärnans radie (t.ex.

k=1

för en

3 \times 3

kärna). Denna ekvation fångar hur lokala mönster, såsom kanter och texturer, extraheras genom att släpa kärnan över bilden.

För en 3D-ingångstensor, exempelvis från magnetresonanstomografi (MRI), utvidgas konvolutionsoperationen för att även omfatta djupet på ingången, vilket gör att nätverket kan hantera volymetriska data. Vidare införs icke-linjära aktiveringsfunktioner efter konvolutionslagerna, vilket möjliggör för modellen att lära sig komplexa avbildningar och förhållanden. En av de vanligaste aktiveringsfunktionerna är den rektifierade linjära enheten (ReLU), definierad som $f(x) = \max(0, x)$ , vilket också säkerställer att aktiveringen blir sparsam och därför både mer effektiv och generaliserbar.

För att minska den beräkningsmässiga komplexiteten och risken för överanpassning till exempel i medicinska bildbehandlingsapplikationer, används poolinglager som nedproverar de rumsliga dimensionerna hos funktionerna. Maxpooling, definierat som
$P(i,j) = \max S(i+m,j+n)$
används ofta, men även genomsnittspooling, som beräknar medelvärdet, förekommer:

P(i,j) = \frac{1}{|R|} \sum_{(m,n)\in R} S(i+m, j+n)

I praktiken används CNN ofta för att klassificera medicinska bilder och identifiera avvikelser, som t.ex. tumörer, frakturer eller lesioner. Vid exempelvis bröstcancerdiagnos kan en mammografibild analyseras med en CNN-modell som producerar ett sannolikhetspoäng, där ett binärt resultat, $y \in \{0, 1\}$ , kan indikera om en tumör är godartad eller malign.

Vid uppgifter som bildsegmentering, där varje pixel i en bild ska tilldelas en etikett, används ofta arkitekturer som U-Net, en encoder-decoder-struktur som extraherar funktioner genom en serie konvolutions- och poolinglager och rekonstruerar bilden genom uppsampling och sammanfogning. För sådana uppgifter används ofta en Dice-koefficient för att mäta likheten mellan den förutsagda och den sanna etiketten på varje pixel.

När det gäller att rekonstruera bilder, som vid MRI, används CNN för att rekonstruera högkvalitativa bilder från undersamplade k-space data. Återuppbyggnadsproblemet formuleras som att minimera skillnaden mellan den rekonstruerade bilden och den verkliga bilden, vilket kräver noggrann hantering av både spatial och strukturell information i bilden.

Inom denna kontext har flera CNN-baserade tillvägagångssätt visat sig framgångsrika i medicinsk bildbehandling. Till exempel har Yousif et al. (2024) tillämpat CNN för att upptäcka melanom i hudcancer och integrerat en algoritm för binär Grey Wolf Optimization (GWO) för att förbättra funktionsurval. Deras forskning lyfter fram vikten av funktionsextraktionstekniker för exakt klassificering. Rahman et al. (2025) ger en systematisk översikt av olika CNN-arkitekturer som ResNet, VGG och EfficientNet för att upptäcka leukemi, vilket erbjuder en referenspunkt för framtida studier.

Flera andra tillämpningar av CNN i medicinsk bildbehandling har också blivit framgångsrika, som att utveckla modeller för att förutsäga ischemiskt kardiomyopati utan kontrastmedel, eller förbättra noggrannheten vid tumörklassificering genom att använda 3D-rumsliga funktioner i mammografi.

För att säkerställa effektiviteten hos CNN inom medicinsk bildbehandling är valet av arkitektur och förlustfunktioner avgörande. En vanlig förlustfunktion för klassificering är binär tvärentropi, där modellen tränas att minimera förlusten av skillnaden mellan de förutsagda sannolikheterna och den verkliga klassen. För mer komplexa uppgifter som bildsegmentering används andra förlustfunktioner, som Dice-koefficienten, som är mer lämplig för att mäta överensstämmelsen mellan de förutsagda och verkliga pixelvärdena.

Det är också viktigt att förstå att CNN, trots sin imponerande förmåga att lära sig rumsliga mönster, inte är felfria och kan påverkas av datakvaliteten. Detta är särskilt relevant inom medicinsk bildbehandling där lågupplösta eller brusiga bilder kan påverka diagnostikens noggrannhet. Därför är tekniker som bildbrusreduktion och optimering av data mycket viktiga för att maximera de kliniska fördelarna med CNN.

Vad är hemligheten bakom näringsrikt och välsmakande bröd utan kolhydrater?
Vad är runor och deras ursprung?
Hur säkerställs datakonsistens mellan verkliga och virtuella system i digitala tvillingar för intelligent felidentifiering?