For å redusere risikoen for overfitting i modelltreningen, er en dropout-lag med en verdi på 0,6 inkorporert i arkitekturen. Dette lagets primære funksjon er å fjerne en del av nevronene under treningsprosessen, noe som tvinger modellen til å generalisere bedre og unngå overtilpasning til treningsdataene. Etter dropout-laget benyttes et fullt koblet lag for å ta den endelige klassifiseringsbeslutningen. Softmax-laget spiller en kritisk rolle i denne beslutningsprosessen. Det beregner et input-vektor bestående av K virkelige tall, hvor K representerer antallet nevroner i softmax-laget. Dette laget transformerer verdiene fra nevronene, som varierer fra 0 til 1, til nye verdier som kan tolkes som sannsynligheten for at et objekt tilhører en bestemt klasse. Softmax-funksjonen er grunnlaget for denne prosessen, og dens formel kan uttrykkes som:

Softmax(z)i=ezij=1Kezj(2.1)\text{Softmax}(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}} \quad (2.1)

hvor zi=logP(y=iX)z_i = \log P(y = i | X).

En viktig komponent i objektgjenkjenningssystemer som YOLOv2 er bruken av "anchor boxes". Disse fordefinerte rektangulære boksene med spesifikke bredder og høyder brukes til å definere de optimale dimensjonene for å fange objektenes skala og proporsjoner i bildene. Bruken av K-means-klustering gjør det mulig å velge et optimalt sett med merkelige bokser i treningsdatasettet. Den riktige størrelsen på disse boksene er avgjørende for nøyaktig deteksjon, da de påvirker hvordan modellen gjenkjenner objektene i testbildene. Antallet nødvendige "anchor boxes" bestemmes av intersection over union (IoU) score, som beregnes gjennom K-means-klustering.

En betydelig fordel med anchor boxes er at de bidrar til å forhindre overfitting ved å unngå overdreven bruk av bokser. YOLOv2 har også inkorporert batch normalisering i alle konvolusjonslagene for å normalisere distribusjonen av verdier mellom lagene. Denne normaliseringen forbedrer regulariseringen, som reduserer risikoen for overfitting ytterligere. Prosessen innebærer beregning av gjennomsnittsverdier og varians over mini-batcher, og deretter normaliseres inputen som beskrevet i følgende formel:

xinorm=xiμbσb2+ϵ(2.2)x_i^{\text{norm}} = \frac{x_i - \mu_b}{\sqrt{\sigma_b^2 + \epsilon}} \quad (2.2)