Hvordan analysere gjennomsnittlig deteksjonsforsinkelse i distribuerte endringsdeteksjonssystemer

I de fleste praktiske scenarier for endringsdeteksjon med energi-høsting sensorer, vil det være nødvendig å vurdere flere aspekter av deteksjonsprosessen, inkludert både gjennomsnittlig deteksjonsforsinkelse og distribusjonen av første passeringstid til falsk alarm. I denne sammenhengen, når 𝛾 → ∞, reduseres den modifiserte CUSUM-testen til den vanlige CUSUM-testen, og resultatene fra denne standardtesten er derfor relevante for scenariet vi ser på.

For å derivere uttrykket for gjennomsnittlig deteksjonsforsinkelse, kan vi definere en tilfeldig vandring som $S_n = \sum_{k=0}^{n} Z_k$ , der $S_0 = 0$ . Forventning og sannsynlighetsmåling under distribusjonen $f_1$ er henholdsvis $\mathbb{E}_1$ og $P_1$ . For hver tilfeldig variabel $Z_k$ er forventningen $\mathbb{E}_1(Z_k) = \mathcal{H}KL$ , og variansen er $\mathbb{E}_1 \left[ (Z_k - \mathcal{H}KL)^2 \right] = \sigma_1^2 < \infty$ . Den løpende minimumverdien for vandringen $S_n$ er betegnet som $\eta_n$ , som defineres som $\eta_n = -\min_{0 \leq k \leq n} S_k$ . Den perturberte versjonen av den tilfeldige vandringen, som inkluderer denne ekstra forstyrrelsestermen $\eta_n$ , kan uttrykkes som $W_n = S_n - \min_{0 \leq k \leq n} S_k = S_n + \eta_n$ .

De fleste resultatene som er relatert til første passeringstid for en tilfeldig vandring som krysser et terskelnivå, har blitt undersøkt for den originale tilfeldige vandringen $S_n$ . Imidlertid kan man utvide disse resultatene til den perturberte tilfeldige vandringen $W_n$ ved å bruke ikke-lineær fornyelsesteori, forutsatt at de "langsomt varierende" betingelsene som er beskrevet i Tartakovsky et al. [2014] gjelder for den tilsvarende forstyrrelsestermen $\eta_n$ .

Første passeringstid $\tau_h = \inf \{ n \geq 1 : W_n > h \}$ er definert som den første tiden da den perturberte vandringen $W_n$ overskrider en gitt terskelverdi $h$ . Den tilhørende overskridelsen $\kappa(h) = W_{\tau} - h$ kan også uttrykkes. Videre defineres første stigeepoke som $T^+ = \inf \{ n \geq 1 : S_n > 0 \}$ , som er første gangvandringen $S_n$ tar en positiv verdi. Den tilsvarende høyden på stigen ved første stigeepoke er betegnet som $S_T$ , som er verdien av den tilfeldige vandringen på tidspunktet $T^+$ .

Dey [2020] viste at for en energihøstende sensor med gjennomsnittlig høstet energi $H \geq E_s$ , og som implementerer CUSUM-testalgoritmen, vil både gjennomsnittlig deteksjonsforsinkelse og distribusjonen av deteksjonsforsinkelsen under den ikke-null hypotesen $f_1$ ikke avhenge av $H$ . Disse parametrene kan beregnes ved hjelp av førsteordens asymptotiske uttrykk.

Når vi ser på distribuerte deteksjonssystemer, der det er lokal deteksjon ved sensorer, er det interessant å analysere gjennomsnittlig deteksjonsforsinkelse under tre ulike beslutningsfusionsregler: OR, AND og $r$ av $N$ . De tilhørende første passeringstidene for disse reglene er henholdsvis minimum, maksimum og $r$ -te ordenes statistikk for alle første passeringstider som er hentet fra de individuelle sensorene. La oss merke de normaliserte første passeringstidene som $\tau_1, \tau_2, \dots, \tau_N$ , og deres arrangering i stigende rekkefølge vil være gitt som $\tau^{(1)} \leq \tau^{(2)} \leq \dots \leq \tau^{(N)}$ . De normaliserte gjennomsnittlige første passeringstidene for de tre reglene kan uttrykkes som:

$\tau_{\text{min}} = \tau^{(1)} = \min(\tau_1, \tau_2, \dots, \tau_N)$
$\tau_{\text{max}} = \tau^{(N)} = \max(\tau_1, \tau_2, \dots, \tau_N)$
$\tau_r = \tau^{(r)}$ , som er den $r$ -te minste passeringstiden.

For å beregne de normaliserte gjennomsnittlige første passeringstidene for disse reglene, benytter vi oss av momentene for forskjellige ordenes statistikker for en standard normalfordelt variabel.

For asymptotiske analyser av første passeringstid til en falsk alarm, spesielt i det distribuerte endringsdeteksjonssystemet, er det viktig å merke seg at den asymptotiske haledistribusjonen for første passeringstid til falsk alarm følger en eksponentiell fordeling, og distribusjonens parametre er uavhengige av energihøsting $H$ . Denne haledistribusjonen kan uttrykkes som $P(\tau_{\infty}(h) > x) = e^{ -\beta x}$ , der $\beta$ er en konstant som avhenger av systemets parametre.

Når vi ser på resultatene for de distribuerte endringsdeteksjonssystemene med lokale sensorer, vil det være nyttig å bruke teorien om ordensstatistikker for å beregne de asymptotiske fordelingsfunksjonene for første passeringstid til falsk alarm under de ulike beslutningsfusionsreglene (OR, AND, $r$ av $N$ ). Disse fordelingsfunksjonene kan brukes til å analysere hvordan systemet responderer på falske alarmer, og dermed forbedre systemets effektivitet og nøyaktighet.

Det er viktig å merke seg at i distribuerte deteksjonssystemer spiller også samspillet mellom sensorene og deres individuelle deteksjonsevne en stor rolle. Selv om individuelle sensorer kan ha relativt høy nøyaktighet, kan aggregasjonen av deres resultater under forskjellige fusionsregler føre til vesentlige forskjeller i ytelsen til systemet som helhet. For eksempel, mens OR-regelen favoriserer en tidlig deteksjon ved å ta hensyn til den raskeste responsen fra en hvilken som helst sensor, kan AND-regelen føre til mer presise, men langsommere deteksjoner, som krever at flere sensorer er enige før en alarm utløses.

Hvordan Forbedre Klasseseparasjon i IoT-Systemer Gjennom Federert Læring og Prototypebaserte Modeller

I moderne maskinlæring er det viktig å kunne skille forskjellige klasser effektivt, spesielt når man arbeider med systemer som IoT, hvor data kan være både store og ustrukturert. En effektiv måte å oppnå dette på er ved å bruke prototypebaserte modeller (PBM), og en av de mest interessante metodene i denne konteksten er federert læring (FL). Federert læring gir fordelen av å trene modeller på tvers av flere enheter uten at dataene trenger å forlate enhetene, noe som bidrar til å beskytte personvern. Denne teknikken er spesielt nyttig i anvendelser som vannforsyningsnettverk (WDNs), hvor det er nødvendig å oppdage lekkasjer eller feil raskt og presist.

En av de viktigste egenskapene ved PBM, som den sentraliserte Winner-Takes-All (WTA) metoden, er muligheten til å undersøke Voronoi-regionene. Disse regionene gir en visuell representasjon av hvordan klassene fordeles blant prototypene, og de kan brukes til å vurdere hvor godt dataene er separert i forskjellige klasser. I praktiske anvendelser som lekkasjedeteksjon i vannforsyningssystemer, kan slike analyser være essensielle for å evaluere nøyaktigheten og påliteligheten til modellen.

Ved å bruke en sentralisert WTA-metode på et gitt datasett, kan vi observere hvordan Voronoi-cellene, som er polygonene som representerer klassen til hvert datasett, er fordelt. Figuren som illustrerer disse cellene, viser at sentraliserte metoder kan ha sine begrensninger når det gjelder å skille dataene klart, noe som kan føre til mindre presise resultater.

Sammenlignet med dette, viser federert læring en bedre separasjon av klassene. Dette kan observeres i resultatene fra federerte Voronoi-celler, hvor en mer tydelig og presis inndeling av datamengden skjer. Dette forbedrer ikke bare klasseseparasjonen, men det gir også høyere renhetsnivåer i de enkelte klassene. Høyere renhet betyr at dataene innenfor en klasse er mer konsistente, noe som er viktig for å sikre at systemet kan oppdage lekkasjer og andre problemer nøyaktig.

En av de største fordelene ved den federerte tilnærmingen er at den opprettholder personvernet. Når man jobber med IoT-systemer, er det ofte sensitive data som må håndteres. Federert læring gjør det mulig å trene modeller på tvers av flere enheter uten at de individuelle datamengdene sendes til en sentral server, noe som reduserer risikoen for datalekkasjer.

I eksperimentene som ble utført, ble virkelige data fra et vannforsyningssystem i Stockholm, Sverige, brukt for å teste metodene. Resultatene viste at federert læring ga bedre renhet og mer pålitelige klassifikasjoner sammenlignet med sentraliserte tilnærminger. Dette er et viktig funn, spesielt for systemer som er kritiske for offentlig infrastruktur, hvor feilklassifiseringer kan føre til alvorlige konsekvenser.

For leseren er det viktig å forstå at valget av læringsrammeverk har stor betydning for kvaliteten på modellen, spesielt når det gjelder å opprettholde balanse mellom nøyaktighet og personvern. Federert læring gir et optimalt kompromiss, og ved å bruke det i kombinasjon med prototypebaserte modeller kan man oppnå høyere ytelse i praktiske applikasjoner, som i vannforsyningssystemer. Det er også viktig å merke seg at federert læring er et kontinuerlig utviklende felt, og utfordringer som håndtering av ikke-uavhengige og identisk distribuerte data (non-IID) fortsatt er relevante.

Videre kan de som er interesserte i å dykke dypere i temaet, se på arbeider som gir innsikt i hvordan maskinlæringsmodeller kan forbedres for å være mer forklarbare. Forklarbarhet er et viktig aspekt for systemer som brukes i kritiske infrastrukturer, da beslutninger truffet av en maskinlæringsmodell kan ha vidtrekkende konsekvenser. Det er også viktig å vurdere den praktiske implementeringen av slike systemer i den virkelige verden, der faktorer som tilgjengelighet av data, kvaliteten på sensordata og operasjonelle utfordringer spiller en stor rolle.

Videre forskning og utvikling vil kunne bidra til å håndtere de gjenstående utfordringene og åpne nye muligheter for effektivt å bruke federert læring i komplekse IoT-applikasjoner som vannforsyningsnettverk.

Hvordan Konsensusprotokoller Fungerer i Distribuerte Systemer
Parabener i kosmetikk: Effekter på helse, miljø og reguleringer
Hvordan Palestinerne Bygget Identitet Gjennom Motstand og Lidelse (1964–87)
Hvordan kan en fasebasert tilnærming til koding og debugging forbedre læring og mestring?