Utviklingen innen dyp læring (deep learning, DL) har dramatisk omformet vår evne til å prosessere og forstå visuell informasjon gjennom maskinelle systemer. Ved å kombinere DL med naturlig språkprosessering (NLP) åpnes nye horisonter for hvordan maskiner kan tolke multimodale data, der bilde og tekst smelter sammen til et helhetlig informasjonsgrunnlag. Evnen til å generere tekstlige beskrivelser av visuelt innhold gjør det ikke bare mulig å indeksere og søke i store samlinger av bilder og videoer, men også å etablere semantiske forbindelser mellom bildeinnhold og språk, noe som tidligere har vært forbeholdt menneskelig persepsjon.
Denne utviklingen bringer både løfter og utfordringer. Mulighetene for applikasjonene er grenseløse — innen helsevesen, underholdning, sikkerhet og utdanning. Likevel trer etiske problemstillinger, som skjevhet i datasett, personvern og ansvarlig bruk, fram som nødvendige faktorer å adressere. Teknologiens fremskritt må balanseres med samfunnets normative rammeverk, ellers risikerer man å undergrave de verdiene som innovasjonen i utgangspunktet skulle tjene.
En av de mest fremtredende milepælene i denne utviklingen er OpenAIs multimodale språkmodell, GPT-4, som markerer et kvantesprang i kunstig intelligensens kapabiliteter. Modellen integrerer bilde- og tekstinput sømløst, noe som gjør det mulig for brukere å kommunisere med systemet ved hjelp av både instruksjoner og visuelle data. I praksis kan en bruker sende inn et bilde sammen med en tekstlig instruksjon, og motta et strukturelt og kontekstuelt relevant svar. Det som tidligere krevde spesialiserte verktøy, samles nå i én modellarkitektur — et kraftfullt verktøy tilgjengelig gjennom GPT-4 API, opprinnelig kun for utviklere, men nå også tilgjengelig for ChatGPT Plus-abonnenter.
Det er essensielt å merke seg at selv om GPT-4 ikke er et rendyrket datasynsverktøy, kan den integreres med modeller som besitter slike egenskaper. Gjennom slik samhandling forsterkes GPT-4s kontekstuelle forståelse, særlig i situasjoner der visuell informasjon må kobles til spesifikke handlingsinstruksjoner eller semantiske kategorier. Tekstuelle beskrivelser som GPT-4 genererer av bilder, kan videre benyttes i samspill med bildegenereringsverktøy som DALL·E, DeepAI og Midjourney, og dermed skape en syklisk dynamikk mellom tolkning og syntese av visuelle data.
Microsofts Bing Image Creator representerer et annet steg i denne utviklingen. Gjennom å gjøre AI-generert bildegenerering tilgjengelig i utvalgte land, illustreres hvordan slike teknologier i økende grad demokratiseres. Denne demokratiseringen gir bredere tilgang til verktøy som tidligere var forbeholdt forskningsmiljøer og teknologiselskaper med betydelige ressurser.
Anvendelsene av DL i bilde- og videoprosessering redefinerer hele bransjer. I medisinsk billedanalyse identifiserer modeller komplekse mønstre i røntgenbilder med presisjon som nærmer seg eller overgår menneskelige eksperter. Innen autonome kjøretøy analyseres visuell informasjon i sanntid for å ta avgjørelser med høy grad av nøyaktighet. Innen sikkerhet og overvåkning utvikles systemer som kan oppdage brudd på sosial distansering, gjenkjenne ansikter og til og med måle kroppstemperatur – alt gjennom integrerte visuelle data.
Det som driver denne revolusjonen, er både modellutvikling og datatilgang. Økende tilgjengelighet på massive datasett gjør det mulig å trene stadig mer sofistikerte modeller som ikke bare gjenkjenner objekter, men forstår kontekstuelle og semantiske relasjoner. Det neste steget er å skape systemer som ikke bare forstår hva de ser, men hvorfor det har betydning — og som kan forklare dette på menneskelig språk.
Samtidig forblir utfordringene betydelige. Algoritmisk skjevhet, forårsaket av skjeve treningsdata, kan føre til urettferdige eller feilaktige beslutninger. Personvernet settes under press når visuelle data samles inn og analyseres i sanntid. Uten klare retningslinjer for bruk, risikerer man at teknologien forvitrer samfunnets tillit heller enn å styrke den.
Det er derfor avgjørende at forskningsmiljøer, utviklere og beslutningstakere arbeider sammen for å formulere rammeverk som ivaretar ansvarlighet i bruken av dyp læring for bilde- og videoprosessering. Dette inkluderer både tekniske løsninger for å redusere skjevhet, juridiske føringer for databruk, og en etisk refleksjon over teknologiens virkning på individ og samfunn.
Det som også er viktig å forstå, er at integrasjonen av multimodale systemer krever en ny måte å tenke datadesign og modellarkitektur på. Det holder ikke lenger å trene modeller isolert på én modalitet — det er samspillet mellom språk, bilde, lyd og kontekst som gir modellene deres fulle potensial. Brukere må også utvikle en kritisk forståelse for hvordan slike systemer fungerer, hva slags data de er trent på, og hvilke begrensninger som følger med deres tilsynelatende allsidighet.
Hvordan energiforbruk påvirker valg av enheter i databehandling og overvåkningsteknologier
Xaviers energiforbruk ble overvåket med presisjon, og et mål på 17 W ble registrert, som vist i Tabell 3.8. I sammenligning viser Jetson Nano betydelig lavere strømforbruk enn sin motpart, Jetson Xavier. Denne forskjellen antyder potensielle ulikheter i beregningsmessig effektivitet og maskinvare spesifikasjoner mellom de to enhetene. Jetson Nano’s beskjedne strømforbruk på 3,21 W antyder at det er velegnet for lavstrøm applikasjoner eller scenarier der energieffektivitet er avgjørende. På den andre siden indikerer Jetson Xavier’s høyere strømforbruk på 17 W at den har kapasitet til å håndtere mer intensive beregningsoppgaver, sannsynligvis på grunn av overlegne prosesseringsmuligheter og ekstra maskinvarefunksjoner. Disse funnene understreker viktigheten av å vurdere energiforbruket når man velger mellom Jetson Nano og Jetson Xavier for spesifikke bruksområder. Applikasjoner med strenge strømbegrensninger, eller de som vektlegger energieffektivitet, kan favorisere Jetson Nano, og utnytte det lavere strømforbruket for å forlenge batterilevetid eller redusere driftskostnader. På den annen side kan oppgaver som krever robust datakraft nødvendigvis måtte benytte Jetson Xavier, til tross for det høyere strømforbruket, for å sikre optimal ytelse og gjennomstrømning.
Tabell 3.8 gir en omfattende oversikt over strømforbruket til YOLOv4-tiny på tvers av forskjellige konfigurasjoner. Analysen omfatter statusen for NVIDIA-enhetene i to distinkte scenarier: ett uten tilbehør og ett med tilkoblede perifere enheter. For Jetson Nano var strømforbruket uten tilbehør 3,21 W, mens det med tilbehør økte til 5,5 W. I kontrast viste Jetson Xavier et høyere grunnleggende strømforbruk på 17 W uten perifere enheter, som noe økte til 18,3 W når tilbehør ble integrert. Disse funnene understreker betydningen av å vurdere forskjellige faktorer som kan påvirke strømforbruket i beregningsenheter. Inkluderingen av eksterne perifere enheter påvirker tydeligvis det totale energiforbruket til både Jetson Nano og Jetson Xavier. Videre fremhever den merkbare kontrasten i strømforbruk mellom de to enhetene variasjonen i energieffektiviteten som er iboende i deres respektive arkitekturer. Slike innsikter er uvurderlige for å optimalisere energistyringsstrategier og forbedre den samlede ytelsen til NVIDIA-enheter i beregningsoppgaver.
Videre er bruken av et distribuert videoinfrastruktursystem for sosial distansering et interessant eksempel på hvordan teknologiske løsninger kan tilpasses spesifikke behov i samfunnet. Overvåkningskameraer er et effektivt verktøy for myndigheter å overvåke og sikre at sosial distansering overholdes. Denne studien introduserer et distribuert overvåkningskamerasystem bygget på NVIDIA-teknologi. Systemets arkitektur består av flere Jetson Nano-enheter, hver utstyrt med et kamera som fungerer som intelligente noder. Disse nodene er integrert med Wi-Fi for internettilkobling og kobles til en sentral datamaskin gjennom en ruter med statisk IP-adresse. Gjennom MobaXterm-applikasjonen, som fungerer som mellomledd, opprettes OpenSSH-tilkoblinger for kommunikasjon med hver enhet. Latensen mellom den sentrale datamaskinen og NVIDIA-enhetene ble målt til 0,3 ms, en minimal forsinkelse som er avgjørende for sanntids overvåkning.
Jetson Nano-enhetenes distribuerte tilnærming gjør det mulig å håndtere flere videostrømmer samtidig, og samtidig opprettholde effektiv ytelse. En av de mest bemerkelsesverdige aspektene ved systemet er bruken av termisk avbildning, som muliggjør deteksjon av individer i vanskelige lysforhold. Denne teknologien bidrar til å styrke systemets pålitelighet, og gjør det mulig å opprettholde nøyaktighet selv i situasjoner der tradisjonell visuell identifikasjon ville vært utfordrende.
I et helhetlig perspektiv legger systemet til rette for effektiv sanntidsdataovervåkning, der informasjon fra flere Jetson Nano-enheter samles på en enkelt plattform for å gi myndighetene omfattende innsikt i etterlevelsen av sosial distansering på forskjellige steder. Den sentraliserte styringssystemet gjør det mulig for de ansvarlige å umiddelbart iverksette tiltak ved brudd på retningslinjene. Slik kan teknologien bidra til å styrke folkehelsen og sikkerheten gjennom presis og rask overvåkning.
En integrert tilnærming for overvåkning av sosial distansering, ansiktsmasker og temperaturmåling utgjør et ekstra lag av kompleksitet. Ved å kombinere AI-drevne algoritmer med eksisterende metoder, kan man minimere nedstengningsperiodene under pandemier. Systemet kan samtidig overvåke flere kritiske faktorer, som sosial distansering, ansiktsmasker og kroppstemperatur, i sanntid, ved hjelp av avanserte deteksjonsmodeller. Dette gjør det mulig å få bedre innsikt i samfunnets etterlevelse av helseforskrifter og tilrettelegger for en mer effektiv håndtering av helsekriser.
Endtext

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский