In de controlemechanismen van Microgrid Clusters (MSC) zijn er verschillende lagen die samenwerken om de gewenste prestaties te bereiken, waarbij elke laag zijn eigen specifieke rol speelt in het beheren van de spanning, stroom en vermogensverhouding binnen het netwerk. Het is cruciaal dat de interne controlesystemen snel, robuust en zonder verlies van efficiëntie functioneren, wat mogelijk wordt gemaakt door de combinatie van geavanceerde regelaars zoals de Lineaire Kwadraat Regelaar (LQR) en de Direct-Quadratuur (dq) controlemethoden.

Een van de belangrijkste aspecten van het beheer van MSC is het voltage tracking en schakelen. Deze mechanismen zijn ontworpen op basis van de dynamica van de LCL-filter, die bestaat uit een inductieelement en een condensator. Het doel van het voltage tracking is om de sinusvormige referentiespanning van 50 Hz te volgen, wat essentieel is voor het handhaven van een stabiele werking van het netwerk. Om de prestaties te optimaliseren, wordt de Lineaire Kwadraat Regelaar (LQR) gebruikt om de referentie spanningen nauwkeurig te volgen. Dit gebeurt door de spanningen en stromen van het LCL-filter te modelleren in een toestandsruimtevorm die vervolgens wordt gecontroleerd met behulp van een feedbackmechanisme. Het model biedt een wiskundige basis voor het beheer van zowel de lage- als hoogfrequente componenten van de stroom, zodat alleen de lage frequenties behouden blijven terwijl de hoogfrequente ruis wordt gefilterd.

De spanning en het vermogen worden vervolgens beheerd door de zogenaamde PQ-controller, die verantwoordelijk is voor het reguleren van actieve en reactieve vermogens. Deze controller maakt gebruik van twee PI-regelaars die verantwoordelijk zijn voor het genereren van de benodigde referentie spanningen langs de d- en q-assen. Deze assen zijn de basis voor de decoupling van actieve en reactieve vermogens, wat betekent dat ze onafhankelijk van elkaar kunnen worden beheerd, wat de flexibiliteit en efficiëntie van het systeem vergroot.

De regeling van het DC-link voltage, dat de grensspanning vormt tussen de converter en het microgrid, vormt de laatste laag in het controlemechanisme. Het vermogen dat via de DC-link stroomt, moet nauwkeurig worden gereguleerd om de stabiliteit van het systeem te waarborgen. Dit gebeurt door middel van een type-2 controller, die in staat is om de spanning te regelen door middel van een niet-faseloze terugkoppeling. Dit zorgt ervoor dat het netwerk altijd binnen de gewenste grenzen opereert, zelfs wanneer er fluctuaties optreden in het aangesloten vermogen.

Wat belangrijk is om te begrijpen, is dat deze controlemechanismen niet alleen gebaseerd zijn op de theoretische modellen, maar dat ze voortdurend moeten worden aangepast aan de real-time omstandigheden van het microgrid. De dynamische eigenschappen van de LCL-filters, de schakelfrequenties en de belasting van het netwerk vereisen dat de controllers constant worden geoptimaliseerd om de prestaties te behouden. Er is dus geen "one-size-fits-all" benadering; elke toepassing kan verschillende ontwerpvereisten en stabiliteitscriteria hebben, afhankelijk van de specifieke omstandigheden.

Daarnaast moet er rekening worden gehouden met de rol van de fasesynchronisatie bij het beheren van de spanning. Het gebruik van een synchronisator zoals de Phase-Locked Loop (PLL) is essentieel voor het verkrijgen van een referentiegridhoek, wat cruciaal is voor het correct volgen van de spanningsverhoudingen in het systeem. Dit zorgt ervoor dat de omvormers van het microgrid correct kunnen synchroniseren met het externe netwerk en dat de spanning en stroom efficiënt kunnen worden gereguleerd.

Een ander belangrijk element is de filtercapaciteit van het LCL-filter. Het ontwerp van deze filters heeft invloed op de manier waarop hoogfrequente ruis wordt onderdrukt en hoe de laagfrequente componenten behouden blijven. De juiste selectie van filterparameters is van cruciaal belang voor het bereiken van een optimale regeling, omdat slecht ontworpen filters kunnen leiden tot verlies van efficiëntie en instabiliteit van het systeem. Het gebruik van LQR-regelaars in combinatie met deze filters maakt het mogelijk om het vermogen en de spanning te volgen zonder dat er significante vertraging of fasenverschil optreedt.

Hoe werkt het Markov-beslissingsproces in microgrids met onzekere beloningen?

In het kader van microgrids (MG) wordt een belangrijk aspect van de besluitvorming bepaald door het Markov-beslissingsproces (MDP), dat de ontwikkeling van strategieën mogelijk maakt voor het optimaliseren van de energiehandel, met name in een dynamische marktcontext. Het MDP biedt een fundamenteel raamwerk voor het begrijpen van de interacties tussen verschillende microgrids die elektriciteit aankopen of verkopen in een gedeelde markt. Dit proces wordt beïnvloed door onzekerheid, zowel qua beloning als qua marktomstandigheden, wat het uitdagend maakt voor de agents in dit systeem om hun strategieën optimaal aan te passen.

In de voorgestelde formulering van een Markov-beslissingsproces met onzekere beloningen (MDPUR), zoals geschetst in de literatuur, wordt de staat van elk microgrid beïnvloed door de vraag naar energie en de voorspelde belasting, evenals door de marktomstandigheden die voortdurend veranderen. De beslissingen van de microgrids zijn afhankelijk van deze informatie, maar de beloningen die zij ontvangen zijn niet altijd direct meetbaar of voorspelbaar vanwege de onzekere aard van de marktfactoren zoals prijsfluctuaties en mogelijke boetes voor agressief bieden.

Bijvoorbeeld, de beloning voor het microgrid wordt berekend na het verwerven van elektriciteit van het netwerk en het uitvoeren van de benodigde transacties. Deze beloning wordt echter pas later zichtbaar, omdat de werkelijke prijzen en de bijbehorende boetes niet op voorhand bekend zijn. Het proces is dus niet alleen afhankelijk van de huidige staat en actie van het microgrid, maar ook van toekomstige, onvoorspelbare elementen die de uiteindelijke uitkomst van de genomen beslissing kunnen beïnvloeden.

Het doel van het MDPUR-model is om het cumulatieve rendement te maximaliseren door de beleidsfunctie van elk microgrid te optimaliseren. Dit moet echter gebeuren met inachtneming van verschillende beperkingen, zoals de boetes voor te agressief bieden en de onzekerheid van de beloning. Het gebruik van traditionele algoritmen voor multi-agent reinforcement learning blijkt niet toereikend vanwege de onzekerheid van de beloningsfunctie en de impliciete risico's die gepaard gaan met de marktwerking. Daarom wordt er voorgesteld om de CCMA-DDPG-algoritme (CVaR-constrained Multi-agent Deep Deterministic Policy Gradient) te implementeren, waarmee de microgrids hun biedstrategieën kunnen bijwerken zonder toegang te hebben tot de biedstrategieën van andere concurrenten.

De CCMA-DDPG is een variatie op de bekende MADDPG (Multi-Agent Deep Deterministic Policy Gradient) en is specifiek ontworpen om agents te helpen bij het ontwikkelen van autonome biedstrategieën in een gedistribueerd systeem. Het is een off-policy algoritme dat werkt in een continue staat- en actieruimte, wat het geschikt maakt voor complexe marktomgevingen zoals die van microgrids, waar de beslissing niet eenvoudig te kwantificeren is. In dit algoritme wordt het doel van elk microgridagent gedefinieerd als het maximaliseren van de verwachte beloning op basis van de huidige actie en de verwachte toekomstige beloningen, zoals berekend door de Q-functie.

Een cruciaal aspect van dit algoritme is de scheiding van de netwerken voor de acteur en de criticus. De actor is verantwoordelijk voor het updaten van de biedstrategie van het microgrid, terwijl de criticus de waarde van de acties evalueert op basis van de verwachte toekomstige beloningen. Beide netwerken worden getraind via backpropagatie en gradient ascent, wat het mogelijk maakt om het beleid van elk microgrid op een efficiënte manier te optimaliseren. Daarnaast wordt er een target-netwerk gebruikt om de stabiliteit van de training te waarborgen, wat essentieel is in een omgeving waar de Q-waarden van de criticus zelf afhankelijk zijn van het beleid van de actor.

Deze aanpak heeft twee belangrijke voordelen: enerzijds maakt het een gedistribueerde training mogelijk, waarbij elk microgrid zijn eigen beleid optimaliseert zonder informatie over de acties van andere microgrids. Anderzijds is het specifiek ontworpen om rekening te houden met risicobeperkingen, zoals de Conditional Value at Risk (CVaR), wat essentieel is voor het voorkomen van grote verliezen in onzekere marktomstandigheden.

Deze geavanceerde algoritmes zoals MADDPG en CCMA-DDPG bieden krachtige middelen voor het ontwikkelen van autonome besluitvormingssystemen in microgrids, maar het is belangrijk om te begrijpen dat het succes van deze methoden sterk afhankelijk is van de nauwkeurigheid van de modellen en de effectiviteit van de leerprocessen. Het gebruik van deep learning vereist uitgebreide gegevens en voortdurende aanpassingen aan de marktomstandigheden om ervoor te zorgen dat het beleid van het microgrid zowel efficiënt als robuust is in het licht van de voortdurende onzekerheid.

Daarnaast is het van belang te beseffen dat hoewel deze algoritmes de potentie hebben om de prestaties van microgrids aanzienlijk te verbeteren, de integratie van meerdere microgrids in een gedeelde marktomgeving met meerdere agents complexe uitdagingen met zich meebrengt. De noodzaak voor privacybescherming en het vermijden van onwenselijke concurrentie heeft geleid tot de ontwikkeling van mechanismen die agents in staat stellen om hun strategieën te optimaliseren zonder vertrouwelijke informatie van concurrenten te onthullen. Dit maakt het mogelijk om in een virtuele marktplaats te opereren waar efficiëntie en samenwerking worden bevorderd zonder de risico's van overmatige concurrentie en prijsmanipulatie.

Hoe de CCMA-DDPG-benadering de prestaties van multi-microgrid netwerken verbetert

In de context van het verbeteren van besluitvormingsprocessen in multi-microgrid (MG) systemen, waarbij meerdere energieprosumers met elkaar concurreren, speelt de benadering van het maximaliseren van de waarschijnlijkheidsfunctie een cruciale rol. Het uitgangspunt is het afstemmen van de acties van elk microgrid (MG) om zowel de winst als de energiebehoeften binnen de opgelegde beperkingen te optimaliseren. Dit wordt mogelijk gemaakt door de integratie van een entropieregularisatie en de formulering van een aangepast label dat rekening houdt met de Conditional Value-at-Risk (CVaR) als een boeteterm.

Het gebruik van de entropieregularisatie, aangeduid met de term Hj(μt,d)H_j(\mu_{t,d}), is bedoeld om de verkenning van de omgeving te bevorderen. Dit biedt de mogelijkheid om het beleid dynamisch bij te stellen, afhankelijk van de interactie met andere MG’s. De entropie speelt hierbij een sleutelrol door een balans te creëren tussen exploitatie van bekende strategieën en exploratie van nieuwe opties, wat essentieel is voor het vermijden van suboptimale beleidskeuzes.

De functie μt,d(aj,t,dθt,d)\mu_{t,d}(a_{j,t,d} | \theta_{t,d}) geeft de waarschijnlijkheid weer waarmee een specifieke actie aj,t,da_{j,t,d} wordt gekozen, gebaseerd op de geobserveerde gegevens en de actuele beleidsparameters θt,d\theta_{t,d}. Deze benadering helpt bij het schatten van het beleid op basis van een steekproefset van acties, wat de beslissingsprocessen binnen de MG’s verfijnt.

Daarnaast wordt de labelfunctie yk,t,dy_{k,t,d} aangepast door de integratie van een CVaR-beperkingsboete, geïnspireerd door de Lagrangiaan Relaxatieprocedure. Dit boeteterm, gemodelleerd als λk,t,d\lambda_{k,t,d}, wordt voortdurend bijgewerkt om het risico van het beleid te beheersen. Het doel van deze boeteterm is om beleid dat de limieten van CVaR overschrijdt te bestraffen, waardoor ongunstige risicosituaties in het besluitvormingsproces worden geminimaliseerd. Dit is van essentieel belang voor het waarborgen van de stabiliteit van de microgrids, vooral bij onzekere marktomstandigheden.

Om de schattingen van de CVaR te verbeteren, wordt een theorema geïntroduceerd waarbij de CVaR wordt benaderd door middel van de Value-at-Risk (VaR). Dit biedt een praktische manier om de mogelijke verliezen binnen een gegeven scenario te beoordelen, terwijl de onzekerheid in de markt wordt erkend. De schatting van de CVaR wordt gedaan door de volgorde van de steekproeven te rangschikken en de VaR te berekenen als de nn-de steekproefwaarde, waar nn gelijk is aan de steekproefgrootte vermenigvuldigd met de gekozen betrouwbaarheid β\beta.

Verder wordt het gebruik van de Double Q-Learning-methode geïntroduceerd om de overestimatie van de Q-waarden te verhelpen, wat een veelvoorkomend probleem is bij Reinforcement Learning-algoritmes zoals DDPG. Door twee onafhankelijke critic-netwerken te gebruiken, wordt de kans op overestimatie geminimaliseerd, wat leidt tot een stabielere en betrouwbaardere waardeschatting. De schatting van de Q-waarde wordt vervolgens vergeleken en de kleinere waarde wordt gebruikt om de labelfunctie yk,t,dy_{k,t,d} bij te werken, wat resulteert in een meer robuust beleid voor elk microgrid.

Daarnaast wordt de techniek van Target Policy Smoothing toegepast om de bias in de Q-waardeschatting te verminderen die voortkomt uit de niet-stationaire aard van de biedprocessen tussen MG’s. Dit wordt bereikt door ruis toe te voegen aan de acties die door het doelbeleid worden gegenereerd. Deze aanpak verhoogt de exploratie in de omgeving, wat voorkomt dat het systeem vastloopt in een lokaal optimum. Het gebruik van een stochastisch beleid, dat een combinatie is van deterministische beleidsbeslissingen en toegepaste ruis, zorgt voor een dynamische benadering van de marktomstandigheden.

Het algoritme zelf, de CCMA-DDPG, biedt een gestructureerde manier om de convergentie van de beleidsbeslissingen van elk MG te waarborgen. Door iteratief te leren van de interactie met de omgeving en het evalueren van de prestaties via de Q-waarden, wordt elk MG in staat gesteld zijn biedstrategie te verbeteren totdat een Nash-evenwicht (NEP) is bereikt. Dit betekent dat alle MG’s hun strategieën hebben geoptimaliseerd en er geen prikkel meer is om van strategie te veranderen. Dit zorgt voor stabiliteit in de beslissingsprocessen binnen het systeem.

Een belangrijk punt om te begrijpen is dat hoewel het bestaan van een NEP bewezen kan worden voor niet-coöperatieve spellen, de uniciteit ervan in dit specifieke model moeilijk te bewijzen is. De utility-functies van de MG’s zijn stochastisch en impliciet, wat betekent dat een analytische benadering voor uniciteit vaak niet mogelijk is. Het gebruik van algoritmen zoals CCMA-DDPG biedt een praktische manier om de NEP te benaderen, maar het blijft essentieel om te erkennen dat er altijd onzekerheden en variabiliteit in de besluitvormingsprocessen van de MG’s bestaan.

Daarnaast kunnen andere belangrijke aspecten van dit systeem worden benadrukt, zoals de rol van netwerkinstellingen en capaciteitsbeperkingen van de microgrids, die direct van invloed zijn op de strategische besluitvorming. De dynamiek van de markt, waaronder de interactie met het distributie-systeemoperator (DSO), speelt eveneens een cruciale rol in het succes van het gehele model. Het is van belang dat de MG’s zich aanpassen aan de veranderende marktomstandigheden en dat de beleidsparameters regelmatig worden bijgewerkt om in te spelen op onvoorziene veranderingen.

Hoe Virtual Power Plants (VPP's) Deelnemen aan de Australische Elektriciteitsmarkt

De rol van Virtual Power Plants (VPP’s) in de Australische elektriciteitsmarkten, zoals de National Electricity Market (NEM) en de Wholesale Electricity Market (WEM), is in de afgelopen jaren aanzienlijk gegroeid. VPP’s bieden een nieuw mechanisme voor het integreren van gedistribueerde energiebronnen (DER’s), zoals zonnepanelen en thuisbatterijen, om samen een virtuele centrale te vormen die kan deelnemen aan de markt. Toch wordt de deelname van VPP’s in deze markten belemmerd door verschillende structurele en regelgevende barrières, afhankelijk van de regio.

In de NEM kunnen VPP’s deelnemen aan de groothandelsmarkt voor energie, maar voor de meeste huishoudelijke klanten die worden bediend door de staats-elektriciteitsretailer Synergy, is deelname alleen mogelijk via een pilootproject zoals Project Symphony. Dit komt doordat de meeste klanten niet direct kunnen deelnemen aan de groothandelsmarkt zonder deze registratie. Bovendien heeft de NEM een hoge prijsplafond voor de energiemarkt, vastgesteld op AU$16.600/MWh vanaf 1 juli 2023, wat een sterke prikkel vormt voor VPP’s om actief te handelen op de spotmarkt voor energie. Dit prijsplafond stelt VPP’s in staat om in periodes van congestie of schaarste op de leveringszijde hun flexibiliteit optimaal te benutten.

Daartegenover staat de WEM, waar het prijsplafond veel lager is (minder dan AU$1.000/MWh), deels door de aanwezigheid van een reserve-capaciteitsmarkt. Dit verlaagt de motivatie voor VPP’s om deel te nemen aan de energiemarkt in de WEM, aangezien de inkomstenpotentie beperkter is. Aan de andere kant kunnen aggregators in de WEM in aanmerking komen voor reserve-capaciteitscredits via vraagrespons, wat een extra waarde toevoegt die niet beschikbaar is in de NEM.

Naast de deelname aan de energiemarkt kunnen VPP’s ook betrokken zijn bij de levering van ondersteunende diensten, zoals de Frequency Control Ancillary Services (FCAS) in de NEM. In dit geval kunnen VPP’s geaccrediteerd worden voor het leveren van deze diensten via een intermediair, zoals een marktkoper, of rechtstreeks onder registratieklassen voor vraagrespons of kleine generatoraggregatoren. De specificaties voor de uitvoering van deze diensten worden beschreven in de AEMO Market Ancillary Service Specification (MASS), waarin ook specifieke voorschriften voor geaggregeerde DER’s zijn opgenomen met betrekking tot meting, controle en verificatie. Per november 2023 waren er acht marktdeelnemers met VPP’s die geaccrediteerd waren voor het leveren van FCAS met een totale capaciteit van 58 MW. Deze deelname werd deels getest tijdens het AEMO NEM Virtual Power Plant Demonstrations-project (2019-2021), waarin de directe deelname van VPP’s aan de FCAS-markten voor contingentie werd geëvalueerd.

In de WEM is er momenteel geen registratie voor VPP’s om ondersteunende diensten te leveren, hoewel er als onderdeel van het Project Symphony-pilootproject een proef is uitgevoerd voor het aanbieden van frequentie-responsdiensten. Dit biedt inzicht in de mogelijkheden voor VPP’s om in de toekomst vergelijkbare diensten aan te bieden in de WEM, hoewel het proces nog in ontwikkeling is.

Naast de energiemarkt kunnen VPP’s ook actief deelnemen aan vraagresponsmechanismen. Binnen een bepaald operationeel bereik kan een VPP de netto-afname van elektriciteit uit het net verhogen of verlagen in reactie op prijsprikkels of een opdracht van de systeemoperator. In de NEM werd in juni 2020 een wijziging van de regels doorgevoerd die een nieuwe mechanismus installeerde voor directe deelname aan vraagrespons via de Wholesale Demand Response Mechanism (WDRM). Dit stelt vraagresponsfaciliteiten in staat om een prijs-hoeveelheidstel in de spotmarkt in te dienen om hun vraag te verminderen, ook wel "negawatts" genoemd. Hoewel VPP’s via deze mechanismen kunnen deelnemen aan de markt, is er in de WEM geen direct vergelijkbaar systeem, hoewel er wel contracten voor vraagrespons zijn, zoals de NCESS-contracten van Enel X en Plico voor piek- en minimumvraagscenario’s.

Een andere manier voor VPP’s om deel te nemen aan de markten is door zich te registreren als een Market Small Generator Aggregator (MSGA) in de NEM. Deze mogelijkheid vereist dat elke klantlocatie in de VPP een aparte aansluitpunt en NEM-compliant metering heeft. Dit kan als een belemmering worden gezien, aangezien de typische apparaatgerichte metingen in DER-inverters niet als compliant worden beschouwd. Dit maakt de registratie als MSGA minder aantrekkelijk voor de meeste VPP’s.

Een belangrijk kenmerk van VPP’s is hun potentieel voor directe marktdeelname. Dit zou betekenen dat VPP’s net zoals andere geplande opwekking- en opslagfaciliteiten behandeld worden in het centrale dispatchproces. Dit houdt in dat VPP’s in staat zouden zijn om biedingen in te dienen en deel te nemen aan de prijsbepaling op de markt. Dit concept is al in gang gezet in de VS onder de FERC Order 2222, maar in Australië is directe deelname nog niet volledig gerealiseerd. Er lopen verschillende proefprojecten in de NEM, zoals Project EDGE en Project Converge, die verschillende modellen voor VPP-deelname testen. Project EDGE richt zich bijvoorbeeld op het testen van directe biedingen en planning van VPP’s in de groothandelsenergiemarkt.

Hoewel deze initiatieven veelbelovend zijn, moeten we bedenken dat de integratie van VPP’s in de markten zowel technische als regelgevende uitdagingen met zich meebrengt. De regulering van energiemarkten in Australië is gecompliceerd, en de mogelijkheden voor VPP’s om zich volledig te integreren zijn nog steeds in ontwikkeling. Wat echter duidelijk is, is dat VPP’s een belangrijke rol zullen blijven spelen in de overgang naar een duurzamer en veerkrachtiger energiesysteem. Dit zal alleen mogelijk zijn door het doorbreken van de bestaande barrières en het aanpassen van de markten en regelgeving om de voordelen van geaggregeerde DER’s ten volle te benutten.