Den metode som benyttes for å optimalisere sparsitet og lav-rank strukturer i føderert læring (Federated Edge Learning - FEEL) har en kompleksitet som krever spesifikke tilnærminger for å håndtere problemene som oppstår ved modellaggregasjon over flere enheter. Den DC (Difference of Convex) algoritmen, en viktig teknikk i denne sammenhengen, tillater en effektiv måte å håndtere slike problemstillinger på gjennom systematiske iterasjoner for å løse ikke-konvekse problemer ved hjelp av konveks tilnærming.

I DC-algoritmen er det viktig å merke seg at funksjonene g1, g2, h1 og h2 alle er α-sterkt konvekse funksjoner, som gjør det mulig å minimere differansen mellom to sterke konvekse funksjoner. Problemet som da skal minimeres, kan representeres som:

minimer f(X)=g(X)h(X)\text{minimer } f(X) = g(X) - h(X)

Her, ved å bruke en DC-struktur, kan vi konvertere den opprinnelige ikke-konvekse problemstillingen til et konvekst problem, noe som forenkler løsningsprosessen betraktelig. I de iterative trinnene av algoritmen benyttes linearisering for å nærme seg løsningen for hver iterasjon, som i formelen:

X[t+1]=arginf(g(X)[h(X[t])+XX[t],Y[t]])X[t+1] = \arg \inf \left( g(X) - \left[ h(X[t]) + \langle X - X[t], Y[t] \rangle \right] \right)

Her er Y[t]X[t]hY[t] \in \partial X[t] h, som representerer subgradienten av funksjonen hh ved punktet X[t]X[t]. Dette trinnet, som bygger på linearisering av den ikke-konvekse delen av funksjonen, er grunnlaget for hvordan de påfølgende iterasjonene finner løsningen. Spesielt for problemene PS1 og PS2, der DC-algoritmen finner løsninger som optimaliserer funksjoner som involverer sparsitet og lav rank, er subgradientene av funksjonene h1 og h2 viktige.

Subgradientene av funksjonene h1 og h2 kan uttrykkes som:

xh1=xk+αx\partial x h1 = \partial \| x \|_k + \alpha x Mh1=Mh2=M2+αM\partial M h1 = \partial M h2 = \partial \| M \|_2 + \alpha M

Subgradientene er essensielle for å utføre tilnærmingen til løsningen i DC-algoritmen, og de beregnes videre gjennom en kombinasjon av normer og vekting.

Et sentralt element i denne prosessen er simuleringen av algoritmens ytelse i sammenligning med moderne metoder som bruker SDR (semidefinite relaksasjon) for å løse ikke-konvekse kvadratiske problemer. Simuleringsresultatene viser at DC-metoden gir bedre treningstap og høyere prediksjonsnøyaktighet enn SDR-basert tilnærming, spesielt når antallet antenner øker og SDR-metoden mister evnen til å opprettholde lav-rank strukturer.

I tillegg er det viktig å merke seg hvordan DC-algoritmen kan brukes til en effektiv enhetsseleksjon i FEEL, der et sentralt mål er å forbedre kommunikasjonseffektiviteten og redusere aggregasjonsfeil. Simuleringen bruker CIFAR-10 datasettet og en BS med 6 antenner og 20 mobile enheter for å trene en støttevektormaskin (SVM). Ved hjelp av DC-algoritmen ble det vist at enhetsseleksjonen gir bedre resultater sammenlignet med tradisjonelle metoder som benytter SDR eller revektorisert 2-norm.

Det er også avgjørende å forstå at DC-algoritmen er en del av en mer omfattende strategi for å håndtere utfordringene i FEEL, inkludert lav-rank optimalisering og sparsitet, som begge er viktige for å oppnå bedre ytelse i distribuerte læringsmiljøer. Dette gjør det mulig å redusere kommunikasjonsbehovet samtidig som man opprettholder høy nøyaktighet på tvers av enheter, uavhengig av støy og kanalforhold.

I tillegg til DC-algoritmen bør leseren være oppmerksom på de teknologiske fremskrittene som understøtter moderne FEEL-applikasjoner, inkludert de nyeste metodene for over-the-air beregning (AirComp) som muliggjør raskere og mer effektiv modellaggregasjon. Dette kan ha en betydelig innvirkning på kommunikasjonshastigheten og den totale ytelsen til systemer som bruker FEEL i praksis.

Hvordan Federert Edge Learning Utnytter Zeroth-Order Optimalisering

Federert edge learning (FEEL) har fått økende oppmerksomhet i både akademia og industrien de siste årene, ettersom det gir en lovende tilnærming for å trene maskinlæringsmodeller på tvers av desentraliserte enheter. Dette skjer uten at dataene forlater enhetene, og dermed beskyttes personvernet. En av de største utfordringene innen FEEL er å håndtere de omfattende kommunikasjonskravene som oppstår når store mengder enheter er involvert. Spesielt gjelder dette for algoritmer som benytter seg av gradientbaserte metoder for å oppdatere modellparametrene, som FedAvg og FedPD. Disse metodene er generelt effektive, men kan være kostbare i form av kommunikasjon, spesielt når man opererer med et stort antall edge-enheter og høy-dimensjonale modeller.

En tilnærming som kan redusere dette problemet er zeroth-order optimalisering, hvor man ikke er avhengig av gradientevalueringer av tapfunksjonen, men i stedet benytter seg av evalueringer av funksjonen på ulike punkter. Dette kan være spesielt nyttig i scenarier hvor gradientene er enten vanskelig tilgjengelige eller for dyre å beregne, som ved hyperparameter-tuning eller distribuerte svart-boksangrep på dype nevrale nettverk.

I tradisjonelle federerte optimaliseringsteknikker, som FedAvg, regnes gradientinformasjonen som essensiell for å forbedre modellens nøyaktighet. Derimot, i mange realistiske anvendelser av FEEL, kan denne informasjonen være enten utilgjengelig eller vanskelig å beregne på grunn av de spesifikke karakteristikkene til de lokale datasettene som hver enhet håndterer. Dette gjør at mange av de eksisterende algoritmene ikke fungerer optimalt under forhold med begrenset tilgang på gradientinformasjon.

For å adressere dette, er det foreslått en ny algoritme kalt FedZO, som benytter zeroth-order optimalisering for federert læring på edge-enheter. FedZO er utviklet for å redusere behovet for intensiv kommunikasjon mellom serveren og enhetene, og benytter en tilnærming hvor ikke alle enhetene trenger å delta aktivt i hver kommunikasjonsrunde. Denne metoden kan dermed oppnå høy effektivitet, samtidig som den minimerer den nødvendige kommunikasjonen, noe som er avgjørende når antallet edge-enheter er stort.

FedZO-algoritmen fungerer på en måte som gjør at hver enhet utfører en lokal oppdatering ved hjelp av en stokastisk tilnærming til tapfunksjonen, uten å bruke gradientene direkte. Dette skjer ved å estimere gradientene ved hjelp av en mini-batch-prosess, hvor man evaluerer forskjellen mellom tapfunksjonen ved to forskjellige punkter i parameterrommet. Denne teknikken tillater algoritmen å oppnå konvergens, selv om eksakte gradienter ikke er tilgjengelige.

I praksis kan dette føre til en betydelig forbedring i hvordan FEEL håndteres, spesielt når det gjelder store skala-applikasjoner som involverer mange edge-enheter med begrensede beregningsressurser. Det kan også gjøre det lettere å bruke FEEL i applikasjoner hvor modellene er høydimensjonale og det er ressurskrevende å beregne eksakte gradienter.

Sammenlignet med tradisjonelle metoder som bruker førsteordens optimalisering (for eksempel gradientebaserte metoder som FedAvg), gir zeroth-order optimalisering en stor fleksibilitet når det gjelder hvilke typer applikasjoner som kan benyttes i FEEL. Spesielt gjør det det lettere å tilpasse algoritmene til situasjoner hvor gradienter er vanskelige eller dyre å beregne. Dette gjør FEEL mer anvendelig for en rekke praktiske scenarioer, fra sanntids sensorvalg til mer komplekse distribuerte læringsoppgaver.

Det er viktig å merke seg at mens zeroth-order metoder har sine fordeler, som redusert kommunikasjonsbelastning og økt fleksibilitet, så er de ikke uten utfordringer. En av de største utfordringene med zeroth-order optimalisering er at det ofte kreves flere evalueringer av tapfunksjonen for å oppnå konvergens, noe som kan føre til at prosessen tar lengre tid sammenlignet med tradisjonelle gradientbaserte metoder. Dette er et viktig aspekt å være oppmerksom på når man vurderer å bruke disse metodene i store FEEL-systemer.

Ved å bruke FedZO, kan vi potensielt redusere tidsforbruket på kommunikasjon, samtidig som vi opprettholder effektiviteten i modelltreningen. Denne tilnærmingen kan også kombineres med andre teknikker som reconfigurable intelligent surfaces (RIS), som har vist seg å forbedre kommunikasjonskvaliteten i trådløse nettverk, for ytterligere å forbedre ytelsen i FEEL-applikasjoner.

I tillegg til å være praktisk for oppgaver med dårlig tilgang til gradientinformasjon, kan zeroth-order optimalisering være nyttig i situasjoner hvor systemene er underlagt strenge personverns- og sikkerhetskrav. Ved å redusere mengden sensitiv informasjon som sendes over nettverket, kan disse metodene bidra til å opprettholde personvernet samtidig som man trener kraftige modeller på desentraliserte enheter.

Hvordan Optimalisere Tiden for Federert Læring med UAV: En Dypdykk i Systemparametere og Utfordringer

Federert Edge Learning (FEEL) med ubemannede luftfartøy (UAV) har blitt en lovende tilnærming for distribuert maskinlæring. Ved å utnytte UAV-er til å samle og oppdatere lokale modeller fra enheter i feltet, kan denne metoden potensielt revolusjonere databehandling og kommunikasjon, spesielt i områder med begrenset nettverksdekning. Men for at FEEL skal være effektiv, er det flere parametere som må optimeres for å sikre raskere trening, lavere energiforbruk og rask konvergens av modellene.

En kritisk del av systemets ytelse er opplastningstiden for enhetene, som er direkte relatert til kanalgevinsten. Økt kanalgevinst reduserer tiden det tar å laste opp en lokal modell til UAV-en, noe som er essensielt for effektiviteten til FEEL-prosessen. UAV-en kan redusere opplastningstiden ytterligere ved å benytte ulike metoder for å forbedre kommunikasjonen, for eksempel ved å sørge for linjesiktforbindelser og minimere kommunikasjonsdistanser mellom enhetene.

Den nødvendige tiden for å laste opp modellen til UAV-en, τk[n]\tau_k[n], avhenger av flere faktorer, inkludert overføringshastighet, kanalforhold og enhetens sendestyrke. Dette forholdet kan uttrykkes som:

τk[n]=srk[n].\tau_k[n] = \frac{s}{r_k[n]}.

Hvor ss er størrelsen på modellen, og rk[n]r_k[n] er kanalens overføringshastighet for enhet kk i runde nn. En økning i kanalens gevinst resulterer i en raskere opplastingstid, noe som igjen reduserer den totale tiden som kreves for å fullføre hele FEEL-treningsprosessen. UAV-en kan også redusere forsinkelser ved å optimalisere sin bane i forhold til enhetene som lastes opp.

Når alle enhetene har lastet opp sine lokale modeller, utfører UAV-en en global modelloppdatering, og den oppdaterte modellen sendes deretter tilbake til enhetene. Tiden som UAV-en bruker på å oppdatere den globale modellen, kan beregnes som:

tUAV[n]=Kc0+sf0min(P0hk[n]σ2).t_{UAV}[n] = \frac{Kc_0 + s}{f_0 \cdot \text{min} \left( \frac{P_0 h_k[n]}{\sigma^2} \right)}.

Her representerer KK antall enheter, c0c_0 antall prosesseringssykluser per lokal modell, og f0f_0 er prosesseringshastigheten til UAV-ens prosessor. Den første termen i denne ligningen kan ignoreres, da UAV-en typisk har langt høyere prosesseringskapasitet enn enhetene. Dette gjør at UAV-en kan fullføre global modelloppdatering raskere enn det lokale treningsarbeidet på enhetene.

Imidlertid er det ikke bare en enkel oppgave å balansere opplastningstidene, energiforbruket og modellens konvergens. Når vi vurderer systemets konvergens, ser vi på hvordan ulike parametere påvirker treningens effektivitet og hvor raskt modellen konvergerer til ønsket nøyaktighet. En viktig komponent er det gjennomsnittlige gradient-normen til de globale modellene, som påvirkes av både enhetenes opplastningstider og den samlede aggregasjonen av modellene.

Som formulert i den relevante teorem 6.1, er den gjennomsnittlige gradient-normen etter NN runder øvre begrenset av:

n=0N12F(wn)2(F(w0)F)+4Kκ(1ND2ak[n+1])Dk2.\sum_{n=0}^{N-1} \|\nabla^2 F(w_n)\|^2 \leq \left(F(w_0) - F^*\right) + 4K\kappa \left(1 - ND^2 \cdot a_k[n+1]\right)D^2_k.

Denne ligningen tar høyde for aggregasjonsfeilene som oppstår på grunn av enhetens planlegging, som reduseres når flere enheter er involvert i samtidig opplasting. Likevel kan det medføre betydelige forsinkelser i prosessen, spesielt når enkelte enheter sliter med å laste opp dataene raskt nok, noe som kan føre til flaskehalser i aggregasjonen.

En viktig utfordring som ofte oppstår når man optimaliserer FEEL-prosessen, er behovet for å finne en riktig balanse mellom å inkludere flere enheter i treningsrundene og å håndtere økt kommunikasjonsbelastning. Å ha for mange enheter som prøver å laste opp sine modeller samtidig kan føre til kommunikasjonsproblemer og forsinkelser, noe som reduserer den totale effektiviteten. Derfor er nøkkelen å velge et passende sett av enheter som balanserer både opplastningstid og treningsytelse.

I tillegg til å velge de riktige enhetene, er det nødvendig å optimere tidspunktene for modelloppdateringer og de relevante tidsintervallene. Dette innebærer å justere enhetenes opplastingsplaner og UAV-ens bane for å minimere tiden som brukes på kommunikasjon og modellberegning, som representert i følgende optimeringsproblem:

min{A,τk[n],Q,δ[n]}n=1Nδ[n]\min_{\{A, \tau_k[n], Q, \delta[n]\}} \sum_{n=1}^{N} \delta[n]

under restriksjonene som omhandler energiforbruk, tidsbegrensninger og konvergenskrav. Dette er et komplekst problem med blandede heltallsvariabler og ikke-konvekse forhold, som ofte krever sofistikerte algoritmer for å finne optimale løsninger.

Det er viktig å merke seg at dersom energibudsjettene for enhetene ikke er tilstrekkelige, kan det være umulig å møte de nødvendige kravene til opplastningstider, selv med en optimal enhetsplanlegging. I slike tilfeller kan det være nødvendig å justere energiforbruket eller inkludere flere enheter i treningene for å møte kravene til både nøyaktighet og tidseffektivitet.

En ytterligere utfordring ligger i den praktiske implementeringen av slike systemer. Det er viktig å kontinuerlig overvåke systemets ytelse under trening for å sikre at de nødvendige justeringene blir gjort i sanntid. Feil i planlegging eller nettverksforhold kan føre til uforutsette forsinkelser som kan forsinke konvergensen eller øke energiforbruket betydelig.

Hvordan TD3-baserte algoritmer påvirker ytelsen til B-FEEL-systemer under ulike forhold

B-FEEL-systemet er utformet for å håndtere utfordringer i trådløs kommunikasjon og federert læring, spesielt når det gjelder å sikre både ytelse og robusthet mot ondsinnet atferd fra kantenheter. Når man implementerer et slikt system, er det avgjørende å forstå hvordan ulike parametere og algoritmer påvirker de overordnede resultatene, spesielt når det gjelder ressursallokering og motstand mot angrep.

I denne studien benyttes et TD3-basert (Twin Delayed Deep Deterministic Policy Gradient) algoritme for å optimalisere ressursfordelingen i B-FEEL. TD3 er en avansert form for forsterkende læring som er spesielt effektiv i scenarier der ressurser må allokeres dynamisk i et system med flere enheter, som det man finner i trådløse nettverk og edge computing. I tillegg til TD3, benyttes ulike benchmark-algoritmer for å evaluere ytelsen: tilfeldig tildeling, gjennomsnittlig tildeling og Monte Carlo-algoritmen. Disse algoritmene representerer forskjellige tilnærminger til hvordan man kan fordele ressurser som båndbredde og overføringskraft i systemet.

En viktig parameter i B-FEEL-systemet er Doppler-frekvensen, som er satt til 5Hz, sammen med en vei tap eksponent på 2.5 for nettverket. Kantservere har en maksimal CPU-frekvens på 2,4 GHz, mens kantenheter kan operere på opptil 1 GHz. Den maksimale overføringskraften for nettverket er begrenset til 24 dBm, og tilgjengelig båndbredde er på 100 MHz. Støystyrken i systemet er satt til −174 dBm/Hz, en verdi som er typisk for trådløse kommunikasjonsmiljøer.

TD3-algoritmen er delt inn i to hovednettverk: aktørenettverket og kritikernettverket. Aktørenettverket består av fem skjulte lag med henholdsvis 512, 1024, 2048, 1024 og 512 nevroner, og benytter ReLU-aktivering. Utgangslaget bruker en softmax-funksjon for å generere handlinger innenfor gitte restriksjoner. Kritikernettverket har fire skjulte lag, også med ReLU-aktivering, og benytter et lineært utgangslag for å estimere Q-verdier.

Det er avgjørende å vurdere ytelsen til B-FEEL-systemet under forskjellige forhold for å vurdere hvordan algoritmene fungerer i praksis. I simuleringene ble prosentandelen ondsinnede enheter variert, fra 0 til 100%, og resultater ble samlet etter 100 globale treningsrunder. Det ble observert en merkbar nedgang i nøyaktigheten etter hvert som andelen ondsinnede enheter økte. Men den foreslåtte B-FEEL-metoden viste seg å være robust mot ondsinnet atferd, uten signifikant tap av nøyaktighet når andelen ondsinnede enheter var under 50%. Dette skyldes den sikre globale aggregeringsprosessen basert på multi-KRUM-algoritmen, som effektivt eliminerer påvirkningen fra skadelige lokale modeller på den globale modellen.

Et annet aspekt som ble vurdert var systemets kapasitet til å håndtere ulike ressursallokeringsscenarier, og hvordan disse påvirker langtidsgjennomsnittlig latens. Når den maksimale systembåndbredden ble økt, så man en betydelig reduksjon i latensen over tid. TD3-algoritmen utkonkurrerte både tilfeldige og gjennomsnittlige tildelingsmetoder, og nærmet seg ytelsen til Monte Carlo-algoritmen, men med bedre beregningsmessig effektivitet.

Ytelsen til det trådløse B-FEEL-systemet ble videre undersøkt ved hjelp av simuleringer som varierer forskjellige parametere som maksimal båndbredde, maksimal overføringskraft og antall kantenheter. Resultatene ble gjennomsnittet over 500 systemrealiserte scenarier for å minimere påvirkningen av variasjoner i enhetenes plassering og kanaltilstand. Analysene viste at TD3-algoritmen er effektiv til å håndtere disse variablene og levere en optimal ressursallokering, samtidig som den opprettholder høy systemytelse.

B-FEEL-systemet er designet for å håndtere både ressursbegrensninger og sikkerhetstrusler, spesielt de som oppstår på kanten av nettverket. De implementerte algoritmene sikrer at systemet er robust nok til å håndtere både tekniske utfordringer og angrep fra ondsinnede aktører, noe som er avgjørende for å opprettholde både systemets sikkerhet og effektivitet. Gjennom disse vurderingene kan man konkludere at B-FEEL, med sine innovative tilnærminger til sikker global aggregering og ressursallokering, er godt rustet for fremtidens trådløse og distribuerte læringssystemer.

Hvordan Gradientbasert og Andre Optimaliseringsalgoritmer Påvirker FEEL

Når man adresserer optimeringsproblemer i maskinlæring, kan ulike tilnærminger gi betydelig variasjon i både hastighet og nøyaktighet. Algoritmer som benytter først, andre og nullte ordens metoder tilbyr forskjellige fordeler og utfordringer, avhengig av konteksten for bruken. I FEEL (Federated Edge Learning) presenteres slike problemer på en distribuert måte, men vi fokuserer her på det sentraliserte miljøet og de konvensjonelle algoritmene som er grunnlaget for mer avanserte teknikker som vil bli utforsket i del II av boken.

Gradientbasert Optimalisering

Gradientnedstigning (GD) er den mest representative algoritmen for å løse optimeringsproblemet (1.11), og den benytter kun gradientinformasjon, noe som gjør den til en førstepartsmetode. Hovedideen bak gradientnedstigning er å oppdatere parameterne iterativt i retningen motsatt av gradienten til målfunksjonen. Denne oppdateringsregelen er formulert som:

xt+1=xtηf(xt)x_{t+1} = x_t - \eta \nabla f(x_t)

hvor xtx_t er parametervektoren ved iterasjon tt, η\eta er læringsraten, og f(xt)\nabla f(x_t) er gradienten til målfunksjonen ved xtx_t. Gradientnedstigning er enkel å implementere og beregningsmessig effektiv, noe som gjør den til et populært valg i mange maskinlæringsproblemer. Det er imidlertid en kjent utfordring med gradientnedstigning at konvergensen kan være langsom, særlig i mer komplekse problemer.

En videreutvikling av gradientnedstigning er stokastisk gradientnedstigning (SGD), som er spesielt effektiv i store maskinlæringsmodeller. I stedet for å bruke hele gradienten, benytter SGD et tilfeldig valgt delsett (mini-batch) av dataene for å beregne gradienten, noe som resulterer i raskere oppdateringer og muligheten til å håndtere store datasett. Denne tilnærmingen har blitt uunnværlig i opplæring av dype læringsmodeller på grunn av sin effektivitet og skalerbarhet. Oppdateringsregelen for SGD er gitt som:

xt+1=xtηfi(xt)x_{t+1} = x_t - \eta \nabla f_i(x_t)

der fi(xt)\nabla f_i(x_t) er gradienten beregnet fra det ii-te tilfeldig valgte datapunktet eller mini-batchen. Denne tilnærmingen introduserer støy i optimeringsprosessen, som hjelper med å unngå lokale minima og gjør det lettere å utforske parameterrommet på en mer effektiv måte. Til tross for sin stokastiske natur, kan SGD konvergere mot en god tilnærming av det globale minimumet, spesielt når læringsraten og andre hyperparametere er riktig justert.

Hessian-baserte Optimaliseringer—Newton-metoden

Selv om førstegenerasjons algoritmer som gradientnedstigning kan løse problemet (1.11), er deres konvergenshastighet generelt langsom på grunn av begrensningen av bare gradientinformasjon. Dette kan tilskrives det faktum at gradienten ikke fanger opp krumningen til målfunksjonen. For å takle dette og akselerere konvergensen, ble Newtons metode foreslått som en annenordens optimeringsalgoritme. Newtons metode bruker både gradienten og Hessian-matrisen (andrederiverte) til målfunksjonen. Oppdateringsregelen for Newtons metode er:

xt+1=xtηH1f(xt)x_{t+1} = x_t - \eta H^{ -1} \nabla f(x_t)

hvor HH er Hessian-matrisen til målfunksjonen ved xtx_t. Denne metoden kan betraktes som en minimering av den andreordens Taylor-ekspansjonen til målfunksjonen rundt punktet xtx_t, noe som kan føre til raskere konvergens nær optimum. Imidlertid kan implementeringen av en andreordens algoritme være mer utfordrende enn førstegenerasjonsmetoder, spesielt på grunn av beregningskostnadene ved å kalkulere og invertere Hessian-matrisen. I tillegg er det en avveining mellom konvergensrate og kommunikasjonseffektivitet. Dette gjelder spesielt i FEEL, hvor ressursene er begrensede, og hvor rask konvergens er viktigere enn andre faktorer som kommunikasjonseffektivitet.

Gradientfri Optimalisering—Zeroth-Order Algoritme

I scenarier der gradientinformasjon ikke er tilgjengelig eller er for kostbar å beregne, kan gradientfri optimalisering (også kjent som nullteordensoptimalisering) være et passende valg. Denne metoden benytter kun verdiene til målfunksjonen for å lede søket etter det optimale punktet, og har anvendelser innenfor hyperparametertuning, simulering-basert optimalisering, og andre områder der gradientinformasjon ikke er lett tilgjengelig.

En vanlig teknikk i nullteordensmetoder er bruk av finite differencer for å tilnærme gradienten til målfunksjonen. Ved å evaluere funksjonen på flere nærliggende punkter, kan man beregne en estimert gradient, som deretter kan benyttes til å veilede optimaliseringen. Den sentrale differanseformelen er en av de mest nøyaktige tilnærmingene for gradientberegning og benyttes ofte i slike metoder:

fxif(x+hei)f(xhei)2h\frac{\partial f}{\partial x_i} \approx \frac{f(x + h e_i) - f(x - h e_i)}{2h}

hvor xx er punktet der gradienten estimeres, hh er en liten forstyrrelse, og eie_i er en enhetsvektor i den ii-te dimensjonen. Ved å bruke denne tilnærmingen kan man erstatte den sanne gradienten i førstegenerasjonsalgoritmer med en approksimert gradient, noe som resulterer i en nullteordensalgoritme.

For FEEL gjenstår det å utvide den sentraliserte nullteordensalgoritmen til et distribuert oppsett, noe som vil bli diskutert i del II.