In het context van RIS-ondersteunde federated edge learning (FEEL), wordt geprobeerd de algehele prestaties van het model te verbeteren door de efficiëntie van de gegevensoverdracht en modelaggregatie te optimaliseren. FEEL maakt gebruik van gedistribueerde edge-apparaten die elk hun lokale gegevens gebruiken om een gemeenschappelijk model te trainen, wat de communicatie-infrastructuur tussen apparaten en een centrale server ontlast. In dit geval wordt een innovatief algoritme op basis van Graph Neural Networks (GNN) gepresenteerd, dat de schaalbaarheid van het systeem verbetert door de netwerkcommunicatie te optimaliseren.

Het systeemmodel omvat een edge-server die een verzameling K apparaten coördineert om een globaal model te trainen met behulp van een Reflector Intelligent Surface (RIS). Elk apparaat is uitgerust met een enkele antenne en beschikt over een lokaal dataset Dk={(xkm,ykm)}D_k = \{(x_{km}, y_{km})\}, waarvan de samples onafhankelijk en identiek verdeeld zijn over de verschillende apparaten. Het doel is om de modelparameters ww^* te vinden die de globale verliesfunctie F(w)F(w) minimaliseren, gedefinieerd als een gewogen som van de lokale verliesfuncties Fk(w)F_k(w).

In de uitvoering van FEEL is het proces opgedeeld in drie belangrijke stappen per ronde. Ten eerste wordt het globale model w(t1)w(t-1) via het downlink-kanaal naar de edge-apparaten verzonden. De veronderstelling is dat de transmissie van de edge-server aanzienlijk sterker is dan die van de apparaten, zodat kanaalfading en ruis volledig kunnen worden gecompenseerd. In de tweede stap wordt het lokale model bijgewerkt door elk apparaat zijn stochastische gradient te berekenen, waarbij een mini-batch BFEELkB_{FEEL_k} van willekeurig gekozen gegevens wordt gebruikt. Tot slot worden de lokale gradients via AirComp efficiënt geaggregeerd door het verzenden van deze gradients gelijktijdig in de lucht, waarbij de edge-server de som van de lokale gradients ontvangt. Dit proces maakt gebruik van de netwerkcapaciteit, waarbij de kans op storingen door kanaalfading en ruis in de kanalen tussen de apparaten en de server wordt geminimaliseerd.

De precisie van de gradientaggregatie wordt echter beperkt door het slechtste kanaal tussen apparaten en de server. Daarom wordt RIS ingezet met N reflectie-elementen om de communicatiesmoes te verlichten en de nauwkeurigheid van de aggregatie te verbeteren. Dit stelt de server in staat een ruisachtige schatting van de gemiddelde gradient Γ^(t)\hat{\Gamma}(t) te herstellen, die vervolgens wordt gebruikt om het globale model bij te werken volgens de formule w(t)=w(t1)γΓ^(t)w(t) = w(t-1) - \gamma \hat{\Gamma}(t), waarbij γ\gamma het leerratio is.

Na de lokale trainingsfase berekent elk apparaat de gemiddelde waarde Γˉk(t)\bar{\Gamma}_k(t) en de variantie πk2(t)\pi_k^2(t) van de lokale gradienten, die naar de server worden gestuurd voor verdere normalisatie. Dit proces stelt de server in staat om de globale statistieken te berekenen en de overgedragen gradients te normaliseren, zodat het netwerk efficiënt kan blijven werken met minimaal communicatieruis.

RIS helpt dus om de signaalsterkte te verhogen, wat essentieel is voor het verminderen van de communicatiefouten en het verbeteren van de algehele prestaties van FEEL. De prestaties van FEEL worden echter sterk beïnvloed door verschillende onderliggende factoren zoals zendvermogen, kanaalcondities, RIS-faseverschuivingen en de denoising-factor. De impact van deze parameters op de nauwkeurigheid van de lokale gradientaggregatie is cruciaal voor de effectiviteit van FEEL in praktijkscenario’s.

Het begrijpen van de invloed van deze parameters is essentieel voor het ontwikkelen van een robuust en schaalbaar systeem voor FEEL. In het bijzonder is het belangrijk te realiseren dat, hoewel RIS de prestaties aanzienlijk kan verbeteren door de communicatiecapaciteit te vergroten, de betrouwbaarheid van de kanaalinformatie en de kracht van de gebruikte gegevensverwerkingstechnieken ook van grote invloed zijn. Effectieve foutcorrectie en signaalverwerking kunnen de marges voor verbetering verder vergroten, zelfs in omgevingen met veel storingen of ruis. Door het combineren van geavanceerde technieken zoals GNN voor het optimaliseren van het model en RIS voor het verbeteren van de communicatie-efficiëntie, kunnen we de effectiviteit van FEEL aanzienlijk vergroten, zelfs in complexe en dynamische netwerkomstandigheden.

Hoe optimaliseer je latentie in een draadloos B-FEEL-systeem via resourceallocatie?

In een draadloos B-FEEL (Blockchain-gebaseerd Federated Edge Learning) systeem is de latentie een cruciale factor voor de algehele prestaties, vooral wanneer er sprake is van het verwerken van grote hoeveelheden data in real-time. De latentie in dit type systeem is het resultaat van zowel communicatietijden als de benodigde rekentijd voor verschillende bewerkingen, zoals digitale handtekeningen en modelvalidatie. Het proces bestaat uit verschillende fasen, waarin elke fase zijn eigen eisen stelt op het gebied van rekencapaciteit en communicatiebandbreedte.

In een typische B-FEEL-opzet is de rekentijd voor elke randserver Bm te berekenen als ρ + 2fρ, waarbij ρ de benodigde CPU-cycli vertegenwoordigt voor één digitale handtekeningbewerking. De latentie voor de communicatie in dit stadium kan vervolgens worden uitgedrukt als de maximale communicatietijd voor alle randservers. Dit heeft invloed op de snelheid waarmee het nieuwe blok kan worden gevalideerd en toegevoegd aan de blockchain, wat vervolgens een antwoordbericht naar de primaire randserver genereert. Het verifiëren van de digitale handtekeningen in dit antwoordbericht vraagt opnieuw om rekencapaciteit van de primaire server, wat leidt tot extra rekentijd.

De latentie in de volgende stappen, zoals het downloaden van het globale model na de validatie en aggregatie van lokale modellen, speelt eveneens een grote rol in het optimaliseren van de algehele systeemprestaties. De tijd die nodig is om het globale model naar de randapparaten te sturen, voegt extra vertraging toe die moet worden geminimaliseerd voor een efficiënte werking van het systeem.

Wanneer we de totale latentie in de t-de ronde beschouwen, bestaat deze uit zowel de communicatietijd als de rekentijd. De communicatietijd omvat de tijd voor het verzenden van berichten, het maken van handtekeningen, en het downloaden van het model. De rekentijd is de som van de benodigde tijd voor de modeltraining, data-preprocessing en digitale handtekeningverwerking. Door het optimaliseren van zowel de bandbreedteallocatie als de zendvermogenallocatie kan de lange-termijn gemiddelde latentie aanzienlijk worden verminderd.

Het optimalisatieprobleem in B-FEEL is geformuleerd als een taak waarbij het doel is de lange-termijn gemiddelde latentie te minimaliseren. Dit kan worden bereikt door de bandbreedte en het zendvermogen efficiënt toe te wijzen in elke trainingsronde, met als doel het minimaliseren van de vertraging in het systeem. Het probleem houdt rekening met beperkingen zoals de maximale systeembandbreedte en de langetermijn gemiddelde energiebeperkingen. Dit stelt ons voor een aanzienlijke uitdaging, omdat de bandbreedte- en zendvermogenvariabelen zowel in de doelstelling als in de beperkingen met elkaar verbonden zijn. De oplossing voor dit probleem vereist geavanceerde technieken zoals reinforcement learning (RL).

Het probleem kan worden geherformuleerd als een Markov Decision Process (MDP), dat kan worden opgelost met een op DRL (Deep Reinforcement Learning) gebaseerde benadering. In deze context omvat de statusinformatie die door de randservers wordt verzameld gegevens over de kanaaltoestand (CSI) en de latentie. Het systeem kan een optimaal beleid leren door acties te selecteren die de latentie minimaliseren. De actieruimte bestaat uit de toewijzing van bandbreedte en zendvermogen voor alle randservers en apparaten, en de beloning is omgekeerd evenredig met de latentie – een hogere beloning komt overeen met een lagere latentie.

Het TD3-algoritme (Twin Delayed Deep Deterministic Policy Gradient) is goed gepositioneerd om deze uitdaging aan te gaan. Het maakt gebruik van een actor-criticarchitectuur en combineert waarde-gebaseerde en beleid-gebaseerde reinforcement learning methoden om de resourceallocatie in realtime te optimaliseren. Door het gebruik van TD3 kan het systeem efficiënte beslissingen nemen, zelfs in complexe en dynamische omgevingen.

Naast de technische uitleg over de optimalisatie van de latentie in B-FEEL-systemen, is het belangrijk voor de lezer te begrijpen dat latentieoptimalisatie niet alleen afhangt van het verbeteren van de rekenkracht en bandbreedte. In veel gevallen speelt ook de complexiteit van het kanaalmodel een grote rol. Kanalen die niet gecorreleerd zijn, zoals het Rayleigh-kanaal, kunnen de efficiëntie van resourceallocatie beïnvloeden doordat de correlatie tussen opeenvolgende toestanden afneemt. Dit kan de nauwkeurigheid van toekomstige beloningsvoorspellingen verminderen, wat op zijn beurt invloed heeft op de beslissingen die door de agent worden genomen.

Daarom moet de optimalisatiebenadering dynamisch zijn en rekening houden met de specifieke omstandigheden van het netwerk en de kanaaleigenschappen. Een rigide benadering zal waarschijnlijk niet voldoende zijn om de latentie te minimaliseren in alle scenario's, vooral wanneer de kanaalsituaties sterk variëren.

Welke rol spelen de verschillende optimalisatie-algoritmes in FEEL?

In veel machine learning-toepassingen spelen optimalisatie-algoritmes een cruciale rol in het verbeteren van modelprestaties. Wanneer het gaat om federated edge learning (FEEL), worden verschillende soorten algoritmes gebruikt om de efficiëntie van het trainingsproces te verbeteren. Deze algoritmes kunnen worden ingedeeld in drie categorieën: eerstegraads (first-order), tweedegraads (second-order) en nuldegraads (zeroth-order) optimalisatie-algoritmes. Elk van deze heeft zijn eigen voordelen en nadelen, afhankelijk van de specifieke toepassing en de context waarin ze worden gebruikt.

De meest populaire en breed toegepaste methode is de eerstegraads optimalisatie, beter bekend als gradient descent (GD). Dit algoritme is relatief eenvoudig te implementeren en vereist alleen de gradiënt van de doelfunctie, waardoor het wordt geclassificeerd als een eerstegraads methode. Het basisprincipe van gradient descent is eenvoudig: de parameters van het model worden iteratief bijgewerkt in de richting van de negatieve gradiënt van de doelfunctie. Dit proces herhaalt zich totdat een minima (bij voorkeur een globaal minimum) wordt bereikt. De update-regel voor gradient descent is dan ook als volgt:

xt+1=xtηf(xt)\mathbf{x}_{t+1} = \mathbf{x}_t - \eta \nabla f(\mathbf{x}_t)

waarbij xt\mathbf{x}_t de parameters zijn op iteratie tt, η\eta de leerfactor is en f(xt)\nabla f(\mathbf{x}_t) de gradiënt van de doelfunctie op xt\mathbf{x}_t is. Het voordeel van deze methode is dat het relatief eenvoudig en computationeel efficiënt is, wat het een populaire keuze maakt voor veel machine learning-taken. Desondanks heeft gradient descent zijn beperkingen, vooral op het gebied van convergentiesnelheid.

Om de convergentiesnelheid van gradient descent te verbeteren, is de stochastische gradient descent (SGD) ontwikkeld. In plaats van de volledige gradiënt te gebruiken, maakt SGD gebruik van een willekeurig gekozen subset van de gegevens (mini-batch) om de gradiënt te berekenen. Dit versnelt de update en maakt het mogelijk om grotere datasets te verwerken. De update-regel voor SGD ziet er als volgt uit:

xt+1=xtηfi(xt)\mathbf{x}_{t+1} = \mathbf{x}_t - \eta \nabla f_i(\mathbf{x}_t)

waarbij fi(xt)\nabla f_i(\mathbf{x}_t) de gradiënt is berekend op een willekeurig geselecteerd datapunt of mini-batch. De willekeurige aard van SGD voegt ruis toe aan het optimalisatieproces, wat helpt om lokale minima te vermijden en de parameterruimte effectiever te verkennen. Hoewel het een stochastische methode is, kan SGD, mits goed afgesteld, alsnog naar een goede benadering van het globale minimum convergeren.

Een andere benadering, die vaak sneller converteert dan de eerstegraads algoritmes, is het gebruik van tweedegraads optimalisatie, zoals de Newton-methodiek. Dit algoritme maakt gebruik van zowel de gradiënt als de Hessiaan (de tweede-afgeleiden) van de doelfunctie. Door beide bronnen van informatie te combineren, kan Newton’s methode sneller naar het minimum convergeren, omdat het beter inzicht geeft in de kromming van de doelfunctie. De update-regel voor Newton’s methode is als volgt:

xt+1=xtηH1f(xt)\mathbf{x}_{t+1} = \mathbf{x}_t - \eta H^{ -1} \nabla f(\mathbf{x}_t)

waarbij HH de Hessiaan matrix van de doelfunctie op xt\mathbf{x}_t is. Newton’s methode is dus gebaseerd op de tweede-orde Taylor-expansie van de doelfunctie en minimaliseert deze benadering op elke iteratie. Hoewel deze methode vaak sneller convergeert dan de eerstegraads methoden, is de berekening van de Hessiaan en de matrixinversie computationeel intensiever, wat een nadeel kan zijn, vooral bij grote datasets.

De Broyden-Fletcher-Goldfarb-Shanno (BFGS) en de beperkte geheugenvariant, L-BFGS, zijn populaire methoden die ook gebruik maken van Hessiaan-informatie, maar zonder deze expliciet te berekenen. Dit maakt ze computationeel efficiënter dan Newton’s methode, terwijl ze nog steeds profiteren van een snellere convergentie.

Aan de andere kant zijn er gevallen waarin het moeilijk of zelfs onmogelijk is om de gradiënt of Hessiaan van de doelfunctie te verkrijgen. Dit kan bijvoorbeeld het geval zijn wanneer de doelfunctie discontinu is, ruis bevat, of als de functie alleen beschikbaar is als een black-box. In dergelijke gevallen kunnen nuldegraads (zeroth-order) optimalisatiemethoden een uitkomst bieden. Deze methoden maken geen gebruik van de gradiënt of Hessiaan, maar gebruiken in plaats daarvan alleen de functiewaarden om de zoektocht naar het optimum te sturen. Een populaire techniek in deze categorie is het gebruik van eindige verschillen om de gradiënt te benaderen. Dit gebeurt door de functie op meerdere nabijgelegen punten te evalueren en zo een schatting van de gradiënt te verkrijgen.

De centrale verschilmethode is een veelgebruikte benadering voor het benaderen van de gradiënt en biedt een nauwkeuriger schatting dan andere eindige verschilmethoden. De formule voor de centrale verschilmethode voor de gedeeltelijke afgeleide van een functie ff met betrekking tot de ii-de variabele xix_i is als volgt:

fxif(x+hei)f(xhei)2h\frac{\partial f}{\partial x_i} \approx \frac{f(\mathbf{x} + h e_i) - f(\mathbf{x} - h e_i)}{2h}

waarbij hh een kleine verstoring is en eie_i de eenheidsvector is in de ii-de richting. Deze methode maakt gebruik van de functiewaarden aan twee punten, één voor en één na het punt van interesse in de ii-de dimensie, om de gradiënt te benaderen.

In FEEL wordt er gezocht naar manieren om de gecentraliseerde nuldegraads optimalisatie uit te breiden naar gedistribueerde instellingen, wat in latere hoofdstukken verder wordt besproken.

Naast de keuze van het juiste optimalisatie-algoritme speelt ook de implementatie in een gedistribueerde omgeving een grote rol. In FEEL is er vaak sprake van beperkte radiofrequentiebronnen en de noodzaak om de convergentiesnelheid te maximaliseren. Dit maakt de keuze voor geavanceerdere algoritmes, zoals de tweedegraads methoden, vaak aantrekkelijker. Desondanks blijven er belangrijke uitdagingen bestaan, zoals de balans tussen rekensnelheid en communicatiedoorvoersnelheid, vooral in het geval van een gedistribueerd systeem.