För att beräkna förbättringar i prestanda, mätte vi flera kvalitetsindikatorer för både de korrigerade och ursprungliga deformerade bilderna, i relation till referensbilder med korrekt geometri. Skillnaden mellan dessa värden representerar den verkliga kvalitetsförbättringen som uppnåddes genom vår kompenseringsmetod. Figur 2.5 illustrerar förbättringar i PSNR (Peak Signal-to-Noise Ratio) och MSSIM (Mean Structural Similarity) för olika bildklasser från PatterNet-datasetet. De konsekvent positiva förändringarna över alla testade scenarier bekräftar att vår metod ger meningsfulla kvalitetsförbättringar i alla fall, även om förbättringarnas omfattning varierade beroende på scenens egenskaper.

Vidare analys av resultaten avslöjar vissa begränsningar i metodens effektivitet som bör beaktas. Vår metod uppvisar minskad effektivitet för scener som saknar distinkta kantdrag i vissa riktningar. Till exempel, när vägar i landningsbana-scener huvudsakligen är horisontella, vilket ger få ledtrådar för att upptäcka vertikala förskjutningar. På liknande sätt blir det svårt att korrekt identifiera pitch-rotationer när vägstrukturer är vertikalt orienterade och uppvisar repetitiva mönster som ger minimala horisontella förskjutningssignaler. Detta pekar på en viktig aspekt för praktiska tillämpningar: med tanke på den stora storleken hos fjärranalysbilder, kan ett strategiskt urval av specifika bildsegment med lämpliga kantdrag i flera orienteringar väsentligt mildra denna begränsning. Genom att fokusera jitterdetekteringsalgoritmer på de mest informativa delarna av bilden kan den övergripande prestandan bibehållas även för mer utmanande scenarier.

En vanlig utmaning inom fjärranalys med djupinlärning är den begränsade tillgången till praktiska träningsdata, vilket kan påverka modellens förmåga att generalisera och tillämpas på olika scenarier. Vår metod för jitterkompensation erbjuder en betydande fördel här, eftersom deformationseffekter kan appliceras syntetiskt på träningsdata med kontrollerade parametrar. Detta möjliggör en betydande ökning av tillgängliga träningsprover genom procedurgenerering, vilket säkerställer att modellen kan generalisera effektivt även vid relativt små dataset. Figur 2.6 visar den praktiska effekten av denna metod. Jämfört med statisk deformation (där bilder deformeras en gång innan träning påbörjas), resulterade dynamisk deformation under träning (där bilderna utsätts för nya syntetiska deformationer innan varje träningspass) i avsevärt förbättrade PSNR-värden på testdata. Denna förbättring bekräftar att kontinuerlig variation i träningsprover förbättrar modellens förmåga att generalisera över olika jittermönster och scenegenskaper.

Figur 2.7 ger en visuell demonstration av vår metods effektivitet för olika scenarier från valideringsdatasetet. Exemplet med reningsverket (översta raden) illustrerar modellens förmåga att korrekt lära sig och korrigera komplexa cirkulära drag som är särskilt svåra för traditionella kompensationsmetoder. Strandscenen (underraden) visar hur naturliga kurvor och organiska gränser framgångsrikt kan återställas, vilket bekräftar metodens tillämplighet bortom artificiella strukturer. Exemplet med landningsbanan och fotbollsplanen visar också mycket bra resultat på scener dominerade av regelbundna mänskliga strukturer med omfattande raka linjer som ger tydliga geometriska ledtrådar för jitterbedömning.

De registreringsfelkartor som presenteras i Figur 2.7d och e ger särskilt övertygande bevis på metodens effektivitet. Dessa visualiseringar visar tydligt att registreringsfelen för kantdrag markant minskas efter jitterkompensation, särskilt för långa raka linjer och böjda former som visade sig vara avsevärt deformerade i den ursprungliga bilden. Denna visuella bekräftelse stöder de kvantitativa förbättringar som observerats i våra numeriska mätningar. För att bekräfta metodens praktiska nytta utöver syntetiska testfall applicerade vi våra tränade modeller på högupplöst satellitbilder från YaoGan-26 som uppvisade verkliga (icke-simulerade) jitterdeformationer. Satellitplattformen ger ett utmärkt testfall eftersom den använder inbyggda accelerometrar som gör det möjligt för traditionell sensorbaserad jitterdetektion och kompensation, vilket skapar en värdefull referenspunkt för en jämförande utvärdering av vår metod. Korrigeringsresultaten, som presenteras i Figur 2.8a och b, visar att vår IJC-Net effektivt återställer geometriskt deformerade drag och rätar ut böjda linjära element. När dessa jämförs direkt med bilder som korrigerats med hjälp av satellitens ombordmonterade sensorinformation, uppvisar våra resultat liknande kantdrag, även om vissa regioner ibland visar mindre oskärpa. Viktigt är att kvaliteten på de korrigerade bilderna är fullt tillräcklig för vidare bearbetning som objektigenkänning, funktionsextraktion eller väg-nätverkskartläggning, vilket bekräftar metodens praktiska användbarhet för verkliga tillämpningar inom fjärranalys.

En viktig aspekt att beakta vid utveckling av generellt tillämpliga jitterkompensationsmetoder är den betydande variationen i jitteregenskaper mellan olika fjärranalysplattformar. UAV-bilder, till exempel, ställer särskilda krav jämfört med satellitbilder på grund av fundamentala skillnader i insamlingsparametrar. Frekvensen för attitydförändringar i UAV-bilder är vanligtvis betydligt lägre än i satellitbilder (på grund av olika plattformsdynamik), medan amplituden ofta är mycket högre (på grund av lägre flyghöjd och högre rumslig upplösning). För att utvärdera metodens anpassningsbarhet mellan plattformar valde vi tjugo bilder med framträdande vägdrag från ett specialiserat dataset för små UAV:er och skapade ett plattformspecifikt träningsdataset. Efter att ha tillämpat liknande procedurer som för satellitbildbehandling, validerade vi den resulterande modellen genom att testa på en bildpar bestående av realistiska deformerade UAV-bilder.

Hur Använda Osupervised Domain Adaptation för Att Förbättra Ytdefektdetektering i Industrin

I den aktuella studien undersöktes användningen av osupervised domain adaptation för att förbättra detektion av ytdefekter i industriella komponenter. Ursprunglig data kom från tre olika domäner: en källa med annoterade defekter, en mellanliggande domän med gemensamma typdefekter utan annoteringar, samt en mål-domän med Type-I ytdefekter som skiljde sig visuellt från källan. Denna metod kombinerade maskininlärningstekniker för att minska skillnader mellan olika dataset och optimera detekteringen.

I det experimentella upplägget användes en dataset där Type-I defekter bestod av 67 bilder från komponenter utsatta för högt stress, medan Type-II datasetet inkluderade 128 bilder från komponenter under standardförhållanden. Dessutom fanns en "Joint"-dataset för verifiering och korrigering, innehållande 249 bilder med olika typer av defekter. För att säkerställa konsekvent bearbetning beskars alla bilder och ändrades storlek till enhetliga 224 x 224 pixlar. För att hantera den klassobalans mellan defekter och icke-defekter, valdes alla defekta prover och ett lika antal icke-defekta prover för träning.

Vid träning användes en GeForce GTX1060 GPU och ett i7 CPU-system. Träningen baserades på Adam-optimeraren med en initial inlärningshastighet på 0.1 x 10⁻⁴ och en batchstorlek på 10. För att utvärdera detektionsprestanda användes en rad kompletterande mått, såsom Precision-Recall Kurvor (PRC), genomsnittlig precision (AP) och Jaccard-koefficient (JACC). Precision-recall kurvorna visualiserade balansen mellan precision (andelen korrekt identifierade defekter bland alla upptäckta) och recall (andel korrekt identifierade defekter bland alla verkliga defekter) vid olika tröskelvärden. Detta mått var särskilt användbart för obalanserade klassificeringssituationer där defekta regioner utgör en liten del av det totala området.

För att kvantifiera domänskillnader mellan käll- och mål-dataset användes Maximum Mean Discrepancy (MMD), en icke-parametrisk metod för att jämföra fördelningar baserat på provuppsättningar. En lägre MMD-värde indikerade en högre likhet mellan domänernas fördelningar.

I de initiala experimenten med övervakad träning uppnåddes bäst resultat med U-Net-arkitekturen som visade en AP på 0.752. För att optimera resultaten prövades olika förlustfunktioner, där Dice-förlust visade sig ge den bästa prestandan med ett F1-värde på 0.736 och en Jaccard-koefficient på 0.582. Ytterligare förbättringar uppnåddes genom dataminskning, där rotation, spegling, översättning och beskärning ökade AP till 0.886, och genom användning av rumsliga och kanalmoduler, som ökade prestandan ytterligare till 0.895.

För att optimera U-Net-arkitekturen specifikt för detektering av ytdefekter i flygkomponenter, genomfördes tester med olika djup på kodaren (encoder depth), där en fyra-lagers encoder visade sig ge de bästa resultaten med en AP på 0.918. Ytterligare tester bekräftade positiva bidrag från batchnormalisering och förträning på ImageNet, med små prestandaförluster när dessa komponenter uteslöts.

När det gäller osupervised domain adaptation, visade experimenten att modellen, när den tränades på Type-II datasetet och sedan testades på Type-I datasetet utan anpassning, uppnådde en AP på endast 0.103. Detta bekräftade den stora skillnaden mellan de två domänerna, vilket sannolikt berodde på skillnader i belysning, upplösning och defekternas morfologi. För att minska denna domänskillnad prövades tre olika anpassningstekniker: (1) frysa de flesta lager och uppdatera endast det sista lagret, (2) frysa kodaren och uppdatera dekodern, samt (3) uppdatera både kodare och dekodare med viktade förlustfunktioner. Den tredje metoden visade sig ge bäst resultat, vilket tyder på att en omfattande anpassning är nödvändig vid hantering av stora domänsdispariteter.

En viktig insikt från denna studie är att trots de tekniska framstegen i detektionsmodeller och domänanpassning, är den praktiska tillämpningen inom industrin inte utan sina utmaningar. Förutom tekniska justeringar av modeller och arkitekturer måste man också beakta externa faktorer såsom variationsrika bilder, skillnader i inspektionsförhållanden och den kontinuerliga utvecklingen av hårdvara som kan påverka detekteringssystemets långsiktiga pålitlighet.