Fingeravtryckstekniker är en viktig del av modern kemoinformatik och spelar en central roll i identifieringen av molekylära likheter. Dessa metoder används för att representera molekyler som bitsträngar, vilket gör det möjligt att jämföra och söka efter strukturella likheter mellan olika molekyler. I denna process är hashning en grundläggande komponent, där varje molekyls unika strukturella egenskaper kodas i en sekvens av bitar. En av de mest användbara och ofta använda teknikerna för att skapa fingeravtryck är användningen av cirkulära fingeravtryck, även kända som Morgan-fingeravtryck. Dessa molekylära representationer gör det möjligt att snabbt och effektivt jämföra stora mängder kemiska föreningar, något som är avgörande inom både läkemedelsutveckling och molekylär forskning.

En viktig aspekt av hashning är hur mönster av bitar sätts för att representera specifika atomära fragment i en molekyl. Detta mönster kan sättas på mer än ett sätt för varje bit, vilket kan leda till kollisioner – en situation där flera olika mönster leder till samma bitmönster. Men genom att använda strukturella fragment istället för enskilda bitar minskar risken för sådana kollisioner avsevärt. Detta gör att vi kan få en mer noggrann representation av molekylens strukturella egenskaper, vilket är en viktig fördel när vi försöker identifiera potentiella molekylära kandidater i exempelvis läkemedelscreening.

När vi tillämpar denna teknik på verkliga molekylära data, som till exempel vid screening av antimalariamedel, kan hashkollisioner skapa falska positiva resultat, där en molekyl som inte egentligen är relevant för vår sökning går vidare till nästa fas. Å andra sidan kan kollisioner inte skapa falska negativa resultat, där vi skulle missa en potentiell kandidat som faktiskt matchar den query-molekyl vi söker. Detta är en viktig egenskap att förstå, eftersom det betyder att även om vi har kollisionsproblem, kommer vi ändå inte att missa viktiga molekyler under screeningprocessen.

Ett alternativ till path-baserade hashade fingeravtryck är de cirkulära fingeravtrycken, som skapar fragment av molekylen genom att beakta alla atomer och deras grannar upp till ett visst avstånd. En populär typ av cirkulärt fingeravtryck är Morgan-fingeravtryck, som är en öppen källkodsimplementation av extended-connectivity fingerprints (ECFP). I dessa fingeravtryck representeras molekylen genom att beakta omgivande atomer i en definierad radie, vilket gör det möjligt att fånga både lokala och mer globala strukturella egenskaper hos molekylen.

En nackdel med både cirkulära och icke-cirkulära fingeravtryck är att valet av parametrar kan påverka resultaten negativt. Till exempel kan två molekyler med olika egenskaper koda för samma fingeravtryck om radien för fragmenten är för liten. Detta leder till att molekyler med olika fysiska eller kemiska egenskaper behandlas som identiska, vilket kan skapa problem vid vidare bearbetning och analys. I praktiken är det därför viktigt att noggrant välja de parametrar som används för att skapa fingeravtrycken för att säkerställa att de verkligen fångar relevanta skillnader mellan molekyler.

En annan viktig aspekt av fingeravtrycksteknikerna är att de inte tillåter oss att rekonstruera den ursprungliga molekylen från dess fingeravtryck. Denna egenskap innebär att vi inte kan återställa molekylens exakta struktur bara genom att titta på dess fingeravtryck. Därför måste fingeravtrycken användas i kombination med andra metoder för att dra mer fullständiga slutsatser om molekylens beteende och potentiella användning.

För den praktiska implementeringen, som i fallet med läkemedelsforskning, används Morgan-fingeravtryck med en radie på 2 för att skapa fingeravtrycksdokument som representerar molekyler i vår databas. En radie på 2 är fördelaktig eftersom den fångar molekylens omedelbara atomära grannar och är mer benägen att upptäcka specifika funktionella grupper eller andra lokala arrangemang av atomer som kan vara kritiska för biologisk aktivitet. En radie på 4, å andra sidan, skulle ge ett mer globalt perspektiv på molekylens struktur och fånga atomära fragment som ligger längre ifrån varandra. Den valda radien på 2 ger dock en mer kostnadseffektiv metod för att skapa fingeravtryck, vilket gör det enklare att manipulera och testa koden vid behov.

När vi skapar fingeravtryck med hjälp av Morgan-metoden, är det vanligt att experimentera med olika parametrar för att jämföra prestanda och effektivitet. För att säkerställa reproducerbarhet är det viktigt att alltid ange vilka fingeravtryck och parametrar som användes vid featurization av molekyler, så att andra forskare kan återskapa resultaten och verifiera forskningen.

Det är också viktigt att förstå att val av radie och fingeravtrycksparametrar påverkar både känsligheten och specifiteten hos de likhetssökande metoderna. En för liten radie kan leda till att vi missar viktiga strukturella detaljer, medan en för stor radie kan fånga irrelevanta fragment och öka risken för falska positiva resultat. Därför måste valet av radie alltid göras med tanke på den specifika applikationen och de kemiska egenskaper vi vill undersöka.

Hur aktiv inlärning och förvärvsfunktioner kan förbättra läkemedelsupptäckt genom molekylprognos

Aktiv inlärning har blivit ett kraftfullt verktyg för att effektivisera processen vid läkemedelsupptäckt, särskilt när det gäller att selektera och utvärdera molekyler för vidare undersökning. När vi arbetar med läkemedelsdesign och molekylmodellering är det nödvändigt att utveckla och förbättra modeller som förutsäger vilka molekyler som sannolikt kommer att binda till ett specifikt målprotein. Aktiv inlärning gör det möjligt att effektivt välja de mest informativa molekylerna för vidare utvärdering, vilket leder till snabbare och mer kostnadseffektiva resultat. Detta sker genom att strategiskt välja vilka molekyler som ska dockas och testas i varje iteration av lärandeprocessen. För detta ändamål används så kallade förvärvsfunktioner (acquisition functions), som styr urvalet av nya molekyler baserat på osäkerheten i de aktuella modellernas prediktioner och deras representativitet i relation till den kemiska rymden.

En grundläggande uppgift i denna process är att skapa en initial uppsättning molekyler som ska användas för att träna modellen. Det finns olika metoder för att säkerställa att den första uppsättningen molekyler är både representativ och informativ för den aktuella inlärningen. Dessa inkluderar strukturbaserad klustring, användning av kända aktiva föreningar eller skapandet av farmakoforhypoteser baserade på information om målets bindningsställe.

För att effektivt genomföra aktiv inlärning måste man välja en förvärvsfunktion som styr urvalet av nya molekyler. De mest använda förvärvsfunktionerna är osäkerhetsprovtagning, exploatering av redan identifierade lovande molekyler, samt en balansering mellan dessa faktorer.

Osäkerhet och representativitet: Grundläggande förvaltningsprinciper

Osäkerhet och representativitet är de två grundläggande kriterierna för att välja nya data under aktiv inlärning. Osäkerhet refererar till modellens förtroende för sina förutsägelser, där molekyler som modellen är mest osäker på antas kunna ge den mest användbara informationen. Att välja molekyler som ligger nära gränsen för aktiv/inaktiv prediktion (dvs. vid modellen största osäkerhet) gör det möjligt att förbättra modellens beslutsfattande för alla möjliga molekyler.

En metod för att beräkna osäkerhet är genom att mäta prediktiv varians. I probabilistiska modeller, som till exempel Gaussian Processes, mäts osäkerheten genom prediktionens varians. För djupa neurala nätverk används istället Monte Carlo-dropout, som skapar en uppsättning förutsägelser genom att släppa ut olika neuroner under inferens. Ju större variation mellan dessa förutsägelser, desto högre osäkerhet.

Representativitet säkerställer att den valda uppsättningen molekyler täcker hela den kemiska rymden och inte bara de molekyler som liknar de som redan testats. Detta ökar chansen att hitta verkligen nya aktiva molekyler och hindrar modellen från att bli för specialiserad och missa potentiellt användbara föreningar.

För att öka representativiteten kan man använda diversitetprovtagning, där man väljer molekyler som är maximalt olika de som redan valts. Dessutom kan täthetsvägda metoder användas för att ge fördel åt molekyler i områden med hög densitet av molekylstrukturer.

Förvärvsfunktioner: Balansering av utforskning och utnyttjande

I den aktiva inlärningen är det också viktigt att balansera mellan att utforska nya områden i den kemiska rymden och att utnyttja kända lovande föreningar. Detta koncept kallas för "exploration-exploitation trade-off", och det är avgörande för att maximera effektiviteten i lärandeprocessen. Å ena sidan vill man utforska nya, otestade molekyler som kan visa sig vara potentiellt användbara (exploration). Å andra sidan, om man redan har identifierat vissa molekyler som verkar lovande, är det ofta fördelaktigt att fortsätta att prova molekyler som liknar dessa för att ytterligare stärka träningens precision (exploitation).

Fyra nyckelfunktioner för att uppnå denna balans mellan utforskning och utnyttjande inkluderar:

  1. Greedy Acquisition: Väljer molekyler med den bästa förutsagda bindningsegenskapen.

  2. Uncertainty Sampling: Väljer molekyler där modellen har hög osäkerhet, vilket främjar utforskning.

  3. Probability of Improvement (PI): Beräknar sannolikheten att en molekyl förbättrar den nuvarande bästa bindningsegenskapen.

  4. Expected Improvement (EI): Utökar PI genom att inte bara överväga om förbättring sker, utan också hur stor förbättringen kan vara.

En effektiv användning av dessa förvärvsfunktioner gör att man kan balansera behovet av att hitta extremt potenta föreningar med att förstå den övergripande strukturella-aktivitetsrelationen i den kemiska rymden. Denna typ av inlärning kräver att man noggrant överväger vilket urval av molekyler som bör testas vid varje iteration.

Monte Carlo-dropout och osäkerhetsbedömning

Monte Carlo-dropout är en nyckelmetod för att beräkna osäkerhet i de flesta förvärvsfunktionerna. Genom att tillämpa dropout under inferens skapas en uppsättning av förutsägelser, vilket gör att man kan uppskatta osäkerheten genom att beräkna standardavvikelsen av dessa förutsägelser. Molekyler som visar sig ha hög osäkerhet (dvs. där variationen mellan förutsägelser är stor) är ofta de mest informativa och lämpliga för att förbättra modellen.

Förutom de tekniska aspekterna är det viktigt att förstå att valet av förvärvsfunktionar inte är trivialt. Olika situationer och modeller kräver olika strategier, och den bästa förvärvsfunktionen kan variera beroende på det specifika problemområdet. Det krävs också en noggrann finjustering av parametrar som styr balans mellan utforskning och utnyttjande för att optimera hela processen.