I de fleste praktiske scenarier for endringsdeteksjon med energi-høsting sensorer, vil det være nødvendig å vurdere flere aspekter av deteksjonsprosessen, inkludert både gjennomsnittlig deteksjonsforsinkelse og distribusjonen av første passeringstid til falsk alarm. I denne sammenhengen, når 𝛾 → ∞, reduseres den modifiserte CUSUM-testen til den vanlige CUSUM-testen, og resultatene fra denne standardtesten er derfor relevante for scenariet vi ser på.

For å derivere uttrykket for gjennomsnittlig deteksjonsforsinkelse, kan vi definere en tilfeldig vandring som Sn=k=0nZkS_n = \sum_{k=0}^{n} Z_k, der S0=0S_0 = 0. Forventning og sannsynlighetsmåling under distribusjonen f1f_1 er henholdsvis E1\mathbb{E}_1 og P1P_1. For hver tilfeldig variabel ZkZ_k er forventningen E1(Zk)=HKL\mathbb{E}_1(Z_k) = \mathcal{H}KL, og variansen er E1[(ZkHKL)2]=σ12<\mathbb{E}_1 \left[ (Z_k - \mathcal{H}KL)^2 \right] = \sigma_1^2 < \infty. Den løpende minimumverdien for vandringen SnS_n er betegnet som ηn\eta_n, som defineres som ηn=min0knSk\eta_n = -\min_{0 \leq k \leq n} S_k. Den perturberte versjonen av den tilfeldige vandringen, som inkluderer denne ekstra forstyrrelsestermen ηn\eta_n, kan uttrykkes som Wn=Snmin0knSk=Sn+ηnW_n = S_n - \min_{0 \leq k \leq n} S_k = S_n + \eta_n.

De fleste resultatene som er relatert til første passeringstid for en tilfeldig vandring som krysser et terskelnivå, har blitt undersøkt for den originale tilfeldige vandringen SnS_n. Imidlertid kan man utvide disse resultatene til den perturberte tilfeldige vandringen WnW_n ved å bruke ikke-lineær fornyelsesteori, forutsatt at de "langsomt varierende" betingelsene som er beskrevet i Tartakovsky et al. [2014] gjelder for den tilsvarende forstyrrelsestermen ηn\eta_n.

Første passeringstid τh=inf{n1:Wn>h}\tau_h = \inf \{ n \geq 1 : W_n > h \} er definert som den første tiden da den perturberte vandringen WnW_n overskrider en gitt terskelverdi hh. Den tilhørende overskridelsen κ(h)=Wτh\kappa(h) = W_{\tau} - h kan også uttrykkes. Videre defineres første stigeepoke som T+=inf{n1:Sn>0}T^+ = \inf \{ n \geq 1 : S_n > 0 \}, som er første gangvandringen SnS_n tar en positiv verdi. Den tilsvarende høyden på stigen ved første stigeepoke er betegnet som STS_T, som er verdien av den tilfeldige vandringen på tidspunktet T+T^+.

Dey [2020] viste at for en energihøstende sensor med gjennomsnittlig høstet energi HEsH \geq E_s, og som implementerer CUSUM-testalgoritmen, vil både gjennomsnittlig deteksjonsforsinkelse og distribusjonen av deteksjonsforsinkelsen under den ikke-null hypotesen f1f_1 ikke avhenge av HH. Disse parametrene kan beregnes ved hjelp av førsteordens asymptotiske uttrykk.

Når vi ser på distribuerte deteksjonssystemer, der det er lokal deteksjon ved sensorer, er det interessant å analysere gjennomsnittlig deteksjonsforsinkelse under tre ulike beslutningsfusionsregler: OR, AND og rr av NN. De tilhørende første passeringstidene for disse reglene er henholdsvis minimum, maksimum og rr-te ordenes statistikk for alle første passeringstider som er hentet fra de individuelle sensorene. La oss merke de normaliserte første passeringstidene som τ1,τ2,,τN\tau_1, \tau_2, \dots, \tau_N, og deres arrangering i stigende rekkefølge vil være gitt som τ(1)τ(2)τ(N)\tau^{(1)} \leq \tau^{(2)} \leq \dots \leq \tau^{(N)}. De normaliserte gjennomsnittlige første passeringstidene for de tre reglene kan uttrykkes som:

  • τmin=τ(1)=min(τ1,τ2,,τN)\tau_{\text{min}} = \tau^{(1)} = \min(\tau_1, \tau_2, \dots, \tau_N)

  • τmax=τ(N)=max(τ1,τ2,,τN)\tau_{\text{max}} = \tau^{(N)} = \max(\tau_1, \tau_2, \dots, \tau_N)

  • τr=τ(r)\tau_r = \tau^{(r)}, som er den rr-te minste passeringstiden.

For å beregne de normaliserte gjennomsnittlige første passeringstidene for disse reglene, benytter vi oss av momentene for forskjellige ordenes statistikker for en standard normalfordelt variabel.

For asymptotiske analyser av første passeringstid til en falsk alarm, spesielt i det distribuerte endringsdeteksjonssystemet, er det viktig å merke seg at den asymptotiske haledistribusjonen for første passeringstid til falsk alarm følger en eksponentiell fordeling, og distribusjonens parametre er uavhengige av energihøsting HH. Denne haledistribusjonen kan uttrykkes som P(τ(h)>x)=eβxP(\tau_{\infty}(h) > x) = e^{ -\beta x}, der β\beta er en konstant som avhenger av systemets parametre.

Når vi ser på resultatene for de distribuerte endringsdeteksjonssystemene med lokale sensorer, vil det være nyttig å bruke teorien om ordensstatistikker for å beregne de asymptotiske fordelingsfunksjonene for første passeringstid til falsk alarm under de ulike beslutningsfusionsreglene (OR, AND, rr av NN). Disse fordelingsfunksjonene kan brukes til å analysere hvordan systemet responderer på falske alarmer, og dermed forbedre systemets effektivitet og nøyaktighet.

Det er viktig å merke seg at i distribuerte deteksjonssystemer spiller også samspillet mellom sensorene og deres individuelle deteksjonsevne en stor rolle. Selv om individuelle sensorer kan ha relativt høy nøyaktighet, kan aggregasjonen av deres resultater under forskjellige fusionsregler føre til vesentlige forskjeller i ytelsen til systemet som helhet. For eksempel, mens OR-regelen favoriserer en tidlig deteksjon ved å ta hensyn til den raskeste responsen fra en hvilken som helst sensor, kan AND-regelen føre til mer presise, men langsommere deteksjoner, som krever at flere sensorer er enige før en alarm utløses.

Hvordan Forbedre Klasseseparasjon i IoT-Systemer Gjennom Federert Læring og Prototypebaserte Modeller

I moderne maskinlæring er det viktig å kunne skille forskjellige klasser effektivt, spesielt når man arbeider med systemer som IoT, hvor data kan være både store og ustrukturert. En effektiv måte å oppnå dette på er ved å bruke prototypebaserte modeller (PBM), og en av de mest interessante metodene i denne konteksten er federert læring (FL). Federert læring gir fordelen av å trene modeller på tvers av flere enheter uten at dataene trenger å forlate enhetene, noe som bidrar til å beskytte personvern. Denne teknikken er spesielt nyttig i anvendelser som vannforsyningsnettverk (WDNs), hvor det er nødvendig å oppdage lekkasjer eller feil raskt og presist.

En av de viktigste egenskapene ved PBM, som den sentraliserte Winner-Takes-All (WTA) metoden, er muligheten til å undersøke Voronoi-regionene. Disse regionene gir en visuell representasjon av hvordan klassene fordeles blant prototypene, og de kan brukes til å vurdere hvor godt dataene er separert i forskjellige klasser. I praktiske anvendelser som lekkasjedeteksjon i vannforsyningssystemer, kan slike analyser være essensielle for å evaluere nøyaktigheten og påliteligheten til modellen.

Ved å bruke en sentralisert WTA-metode på et gitt datasett, kan vi observere hvordan Voronoi-cellene, som er polygonene som representerer klassen til hvert datasett, er fordelt. Figuren som illustrerer disse cellene, viser at sentraliserte metoder kan ha sine begrensninger når det gjelder å skille dataene klart, noe som kan føre til mindre presise resultater.

Sammenlignet med dette, viser federert læring en bedre separasjon av klassene. Dette kan observeres i resultatene fra federerte Voronoi-celler, hvor en mer tydelig og presis inndeling av datamengden skjer. Dette forbedrer ikke bare klasseseparasjonen, men det gir også høyere renhetsnivåer i de enkelte klassene. Høyere renhet betyr at dataene innenfor en klasse er mer konsistente, noe som er viktig for å sikre at systemet kan oppdage lekkasjer og andre problemer nøyaktig.

En av de største fordelene ved den federerte tilnærmingen er at den opprettholder personvernet. Når man jobber med IoT-systemer, er det ofte sensitive data som må håndteres. Federert læring gjør det mulig å trene modeller på tvers av flere enheter uten at de individuelle datamengdene sendes til en sentral server, noe som reduserer risikoen for datalekkasjer.

I eksperimentene som ble utført, ble virkelige data fra et vannforsyningssystem i Stockholm, Sverige, brukt for å teste metodene. Resultatene viste at federert læring ga bedre renhet og mer pålitelige klassifikasjoner sammenlignet med sentraliserte tilnærminger. Dette er et viktig funn, spesielt for systemer som er kritiske for offentlig infrastruktur, hvor feilklassifiseringer kan føre til alvorlige konsekvenser.

For leseren er det viktig å forstå at valget av læringsrammeverk har stor betydning for kvaliteten på modellen, spesielt når det gjelder å opprettholde balanse mellom nøyaktighet og personvern. Federert læring gir et optimalt kompromiss, og ved å bruke det i kombinasjon med prototypebaserte modeller kan man oppnå høyere ytelse i praktiske applikasjoner, som i vannforsyningssystemer. Det er også viktig å merke seg at federert læring er et kontinuerlig utviklende felt, og utfordringer som håndtering av ikke-uavhengige og identisk distribuerte data (non-IID) fortsatt er relevante.

Videre kan de som er interesserte i å dykke dypere i temaet, se på arbeider som gir innsikt i hvordan maskinlæringsmodeller kan forbedres for å være mer forklarbare. Forklarbarhet er et viktig aspekt for systemer som brukes i kritiske infrastrukturer, da beslutninger truffet av en maskinlæringsmodell kan ha vidtrekkende konsekvenser. Det er også viktig å vurdere den praktiske implementeringen av slike systemer i den virkelige verden, der faktorer som tilgjengelighet av data, kvaliteten på sensordata og operasjonelle utfordringer spiller en stor rolle.

Videre forskning og utvikling vil kunne bidra til å håndtere de gjenstående utfordringene og åpne nye muligheter for effektivt å bruke federert læring i komplekse IoT-applikasjoner som vannforsyningsnettverk.