Meta Modeling är en metod som syftar till att förbättra kvantifieringen av osäkerhet genom att använda externa nätverk för att förutsäga fördelningar baserade på mellanliggande lager i en grundläggande nätverksmodell. Denna metod har potential att utöka våra möjligheter att hantera osäkerhet i många typer av maskininlärningsuppgifter, särskilt när det gäller regressionsuppgifter. Målet är att skapa en metod som tillåter flexibel representation av osäkerhet utan att behöva reträna hela nätverket, vilket sparar både tid och beräkningsresurser.

För att förstå hur Meta Modeller fungerar, behöver vi först definiera några viktiga begrepp. Osäkerhet i maskininlärning kan ha olika former, såsom aleatorisk osäkerhet (orsakad av inneboende variation i data) eller epistemisk osäkerhet (orsakad av brist på information). Meta Modeling gör det möjligt att hantera båda typerna, samt att upptäcka exempel som ligger utanför den tränade datamängden, så kallade "out-of-distribution" (OOD) prover. Genom att använda en Meta Modell kan vi alltså förutsäga osäkerheten i våra prediktioner och göra det möjligt för systemet att känna igen exempel som inte passar in i den förväntade datamängden.

I grunden består en Meta Modell av två delar: en encoder och ett distributionsnätverk. Encodern använder de mellanliggande lagren från den grundläggande nätverksmodellen för att extrahera så kallade "meta-egenskaper", som är en form av latenta representationer som hjälper till att identifiera de viktigaste parametrarna i nätverket för att förutsäga osäkerheten. Dessa meta-egenskaper används sedan som indata för att träna ett distributionsnätverk som lär sig fördelningen av osäkerheten.

En av de största fördelarna med denna metod är dess förmåga att hantera komplexa multimodala fördelningar som kan uppstå i verklig data. Till exempel kan sensorinformation innehålla osäkerhet som inte enkelt kan representeras med en enkel normalfördelning. I sådana fall kan andra distributionsmodeller som Laplace eller Gaussian Mixture Models väljas, vilket gör modellen mer flexibel och tillämplig på en mängd olika typer av uppgifter.

För att använda Meta Modeling på regressionsuppgifter, där vi förutspår kontinuerliga värden snarare än diskreta klasser, är ett naturligt val av fördelning den multivariata normalfördelningen. Denna distribution passar bra för att kombinera flera mätningar och integreras enkelt med metoder som Kalman-filtering. Men om osäkerheten i data är mer komplex och multimodal, kan det vara nödvändigt att välja en annan distributionsmodell för att få en mer exakt uppskattning.

I praktiken innebär användningen av en Meta Modell att vi inte bara får ett värde för prediktionen, utan också en uppskattning av osäkerheten kring den prediktionen. För regression kan detta göras genom att modellens mellanliggande lager används för att uppskatta parametrarna i den valda fördelningen. Om vi använder en normalfördelning, behöver vi dessutom säkerställa att kovariansmatrisen är korrekt konstruerad, vilket kräver att vi utför en LDL-dekomposition och använder exponentiell aktivering för att hålla värdena positiva.

Det är viktigt att förstå att Meta Modeling inte bara handlar om att förutsäga ett resultat utan om att ge en helhetsbild av osäkerheten, vilket är avgörande för att bygga intelligenta system som kan hantera okända och osäkra situationer. Förutom de uppenbara fördelarna med att kunna upptäcka OOD-exempel och hantera olika typer av osäkerhet, erbjuder denna metod också en stark beräkningsmässig fördel genom att undvika behovet av att reträna hela nätverket varje gång vi vill uppdatera osäkerhetsmodellen.

När det gäller träningsmetoder för Meta Modeller, kan antingen maximum likelihood eller distributionsmetrikker som Kullback-Leibler divergens användas. Maximum likelihood-estimaten är särskilt användbara när det inte finns tillgång till "sann" osäkerhet i data, vilket är vanligt i praktiska tillämpningar. Emellertid har denna metod den nackdelen att den inte är lika flexibel när vi arbetar med olika distributionsmodeller. En distributions-till-distribution-metod som Kullback-Leibler divergens erbjuder en mer allmän lösning men kräver att den verkliga osäkerheten är känd för att fungera effektivt.

Det finns också praktiska överväganden att ta hänsyn till, särskilt när det gäller mycket stora modeller, som de som används inom språkbehandling. I sådana fall kan det vara fördelaktigt att bara använda en delmängd av de mellanliggande lagren för att minska de beräkningsmässiga kraven.

För att sammanfatta, ger Meta Modeling oss ett kraftfullt verktyg för att hantera osäkerhet i maskininlärning, särskilt i regressionsuppgifter. Genom att använda externa modeller som lär sig från mellanliggande lager kan vi exakt förutsäga både resultat och osäkerhet utan att behöva reträna hela nätverket. Detta möjliggör snabbare och mer effektiva lösningar för många olika typer av uppgifter, från OOD-detektering till komplexa sensorbaserade mätningar.

Hur kan rättvisa läras genom att införa dolda rättvisa etiketter i data?

YooJung Choi föreslog en metod för datarensning som härleder den dolda rättvisa etiketten för varje datapunkt. Denna metod kan användas för att uppskatta förväntade rättviseöverträdelser och för att lära rättvisa klassificerare med rena etiketter istället för de snedvridna. Eftersom denna metod ersätter etiketterna i data, vilket kan vara problematiskt i vissa domäner, föreslår vi även en metod för viktning som direkt uppskattar den förväntade rättvisan i relation till de dolda etiketterna utan att ändra själva datan. Båda metoderna för datarensning och viktning innebär att vi härleder sannolikheten för dolda rättvisa etiketter utifrån den observerade datan.

Specifikt använde vi FairPC, som ursprungligen föreslogs som en metod för rättvis fördelningsinlärning, och visade att vi kan använda den hanterbara betingade inferens som stöds av probabilistiska kretsar för att effektivt beräkna de rättvisa etikett-sannolikheterna vi behöver. Dock antar FairPC att de rättvisa etiketterna är oberoende av de känsliga attributen, vilket kan vara en för stark eller mindre lämplig antagande i vissa tillämpningar. Därför lämnar vi för framtiden en mer flexibel och mindre restriktiv metod för att uppskatta de dolda etikettsannolikheterna.

Vid tillämpningen av denna metod är det viktigt att komma ihåg att den rättvisa etiketten som härleds inte alltid kan definieras på ett objektivt sätt i alla sammanhang. I många fall kan det vara nödvändigt att noggrant överväga vilken definition av rättvisa som är mest relevant för en given domän eller applikation. Den metod som föreslås här är i grund och botten en probabilistisk strategi som tillåter att rättvisan kan "skattas" utifrån de faktiska datainsamlingarna och det inferensarbete som gjorts på dessa data.

Det är också viktigt att förstå att metoder för att säkerställa rättvisa genom att använda dessa "dolda etiketter" inte innebär att vi helt eliminerar problem med fördomar i modeller, utan snarare att vi skapar en mer kontrollerad och medveten process för att hantera sådana fördomar. Denna metod, genom att hålla etiketterna dolda och ge en skattad rättvisa, innebär att modellerna fortfarande kan utföra sina uppgifter utan att direkt manipulera de data som kan ge upphov till snedvridna resultat.

I praktiken kommer detta att innebära att vi skapar rättvisa klassificerare som inte bara är effektiva i sin förmåga att förutsäga resultat baserat på data, utan också medvetet "avväger" för att säkerställa att de inte gynnar eller missgynnar individer eller grupper baserat på snedvridna eller otillräckligt rättvisa etiketter.

Vidare kan det vara värt att överväga att dessa metoder kanske inte fungerar på samma sätt i alla kontexter. I vissa situationer kan det vara nödvändigt att justera den probabilistiska modellens förutsättningar för att bättre reflektera den specifika typ av rättvisa som eftersträvas. Modeller som inte tar hänsyn till samtliga potentiellt känsliga attribut kan resultera i otillräcklig rättvisa eller felaktiga förutsägelser. Detta kräver en kontinuerlig anpassning av de modeller som används för att säkerställa att rättvisan inte bara är en teoretisk uppskattning utan också praktiskt tillämplig i verkliga scenarier.

Det är också av stor vikt att förstå att sådana metoder inte ersätter behovet av att ha noggrant utformade och transparenta processer för att hantera bias i datainsamling och förbehandling. Även om probabilistiska metoder kan ge effektiva lösningar för att hantera dolda fördomar i klassificering, innebär detta inte att de alltid kan identifiera eller korrigera för alla typer av bias som kan uppstå i ett system. För att säkerställa verklig rättvisa i en maskininlärningsmodell är det avgörande att kombinera tekniska metoder med etiska och samhälleliga överväganden för att undvika att skapa nya typer av förvrängningar eller oavsiktliga orättvisor.