När vi ersätter den traditionella orakeln i aktiva inlärningssystem, minskar mängden data som läggs till vid varje iteration, och ofta är det en större korrespondens mellan uppgiftens svårighetsgrad och förmågan att träna en effektiv surrogatmodell i lågdatatillstånd. I de fall där vi börjar med väldigt få märkta exempel, är en vanlig alternativ metod att använda Gaussian Processer (GP). Djupa neurala nätverk har generellt svårt att hantera så här begränsade datamängder, och kräver hundratals eller tusentals exempel för att lära sig meningsfulla mönster utan att överanpassa. Gaussian Processer är mer datak effektiva än neurala nätverk. Den höga kostnaden för att erhålla etiketter (genom docking simuleringar eller laboratorieexperiment) innebär att dataset ofta är mycket små när vi börjar, vilket är en situation där GPs excellerar.

Till skillnad från de flesta neurala nätverk, som enbart ger punktprognoser, levererar GPs en komplett sannolikhetsfördelning över möjliga utdata. För varje förutsägelse ger en GP både ett medelvärde (det förväntade värdet) och en varians (osäkerheten). Den inneboende förmågan hos GP:s att tillhandahålla osäkerhetsuppskattningar är en annan övertygande anledning till deras popularitet. Trots dessa fördelar, står GPs inför beräkningsutmaningar när datamängder växer. I de fall där mer data ackumuleras, är en vanlig hybridstrategi att börja med aktiva inlärning med GPs för deras datak effektivitet och principer för osäkerhet, för att senare övergå till djupa inlärningsmetoder när mer data blir tillgänglig.

Träning av en surrogatmodell använder vanliga övervakade inlärningstekniker som vi täckte i tidigare kapitel. Vi minimerar det genomsnittliga kvadrerade felet mellan de förutsagda och faktiska bindningsaffiniteterna med Adam-optimeraren. Nyckelaspekten i vår träningsmetod är användningen av mini-batcher, vilket gör att vi kan träna effektivt med stora dataset. Vi använder en standardbatchstorlek på 32, men detta kan justeras baserat på tillgängligt minne och beräkningsresurser. En inlärningshastighet på 0.001 anses vara en bra balans mellan konvergenshastighet och stabilitet, och denna hyperparameter kan justeras om så behövs. Vid implementering av djupa inlärningsmetoder för progressiv docking är det viktigt att övervaka träningsprocessen och resultaten vid varje iteration.

För att följa experimentet och logga relevanta mått använder vi TensorBoard, ett visualiseringsverktyg för TensorFlow (kompatibelt med PyTorch). Vi spårar modellens prestanda, övervakar konvergensen och visualiserar distributionsförskjutningar som gör det möjligt att observera hur vår valda föreningspool utvecklas över iterationer. Detta gör det också möjligt att jämföra resultat från olika hyperparametrar, selektionsstrategier och andra experimentella faktorer.

Den initiala samplingstrategin har en avgörande påverkan på hela den aktiva inlärningens förlopp. När vi påbörjar en aktiv inlärningsprocess för molekylär docking ställs vi inför en grundläggande utmaning: Vi behöver träna en initial surrogatmodell, men vi har ännu inga märkta data. De molekyler vi väljer för initial utvärdering kommer att avgöra vad modellen först lär sig om struktur-aktivitet-landskapet. Här uppstår ett klassiskt problem: Vi vill välja informativa föreningar, men utan en modell vet vi inte vilka föreningar som är informativa. En enkel metod är slumpmässig sampling, där molekyler väljs helt slumpmässigt från den tillgängliga poolen. Slumpmässig sampling ger en opartisk representation av den underliggande fördelningen av molekyler i vår ursprungliga föreningsbibliotek.

Men slumpmässig sampling kan leda till redundanta data, särskilt när kemiska bibliotek ofta innehåller överrepresenterade strukturer. Istället för att förlita oss på slumpen, erbjuder en diversitetsbaserad sampling en möjlighet att välja en uppsättning molekyler som maximalt täcker det kemiska rummet. Den populära MaxMin-algoritmen för diversitetsbaserad sampling fungerar genom att först välja en förening slumpmässigt (eller från centrum av fördelningen) och därefter iterativt välja de föreningar som är maximalt avlägsna från de redan valda molekylerna. För att implementera MaxMin kan vi använda RDKit:s MaxMinPicker, vilket är särskilt utformat för att arbeta med kemiska fingeravtryck och optimerat för deras speciella egenskaper (de är ofta högdimensionella och glesa).

Diversitetsbaserad sampling gör det möjligt för den initiala surrogatmodellen att exponeras för en bredare variation av molekylära egenskaper och ramverk, vilket maximerar informationsvinsten från varje dyr docking-simulering genom att undvika likartade föreningar. Denna metod ökar också sannolikheten att vi inkluderar några aktiva föreningar i den

Hur AI-revolutionen förändrar läkemedelsutveckling och läkemedelsupptäckt

Läkemedelsutveckling är en av de mest komplexa och kostsamma processerna inom biomedicin. Från den inledande idén till marknadsintroduktion kan processen ta 10 till 15 år och kräver investeringar på flera miljarder dollar. Endast en liten andel av de kandidatläkemedel som utvecklas når marknaden. Traditionellt sett är läkemedelsutveckling en lång, mödosam väg, men genom nya framsteg inom artificiell intelligens (AI) kan denna process göras både snabbare och mer effektiv, vilket öppnar upp nya möjligheter för att upptäcka behandlingar för sjukdomar som tidigare varit svåra att behandla.

I de tidiga faserna av läkemedelsupptäckt kan processen delas upp i fyra huvudsteg: målidentifiering, hit discovery, hit-to-lead eller lead identifiering, och lead optimering. Målidentifiering syftar till att hitta ett giltigt mål, alltså en biologisk komponent, vars aktivitet kan moduleras för att behandla en sjukdom eller störning. Hit discovery är processen där kemiska föreningar som har aktivitet mot målet identifieras. Därefter följer lead identifiering, där de mest lovande träffarna väljs ut för att fortsätta till lead optimering. Lead optimering innebär att förbättra föreningarnas potens, selektivitet och ADMET-egenskaper för att de ska vara lämpliga för prekliniska studier.

För att hitta dessa kemiska föreningar kan man använda sig av olika metoder, inklusive virtuell screening och de novo design. Virtuell screening innebär att man söker genom ett kemiskt utrymme som består av ett enormt antal molekyler för att hitta potentiella kandidater. De novo design, å andra sidan, fokuserar på att skapa nya molekyler genom att söka i ett funktionellt utrymme där molekylära egenskaper, snarare än specifika kemiska strukturer, är i fokus. Genom att använda AI kan modeller lära sig att identifiera de sektioner av det funktionella utrymmet som leder till molekyler med önskade egenskaper, såsom ideal bindning och säkerhet, vilket gör det möjligt att omvända designa nya molekylstrukturer.

När en lovande förening har identifierats och optimerats, börjar den prekliniska fasen. Här testas läkemedelskandidaten på djurmodeller för att bedöma dess säkerhet och effektivitet. Om läkemedlet visar sig vara lovande i prekliniska tester, går det vidare till kliniska prövningar. Den kliniska prövningen delas upp i tre faser. I fas I utvärderas läkemedlets säkerhet på människor för första gången. Fasen involverar ett litet antal friska frivilliga, vanligtvis mellan 20 och 100 personer, och fokuserar på att fastställa säker dosering och identifiera eventuella biverkningar. Fas II och III innebär tester på större grupper av patienter för att fortsätta samla data om säkerhet och effektivitet. Fas II involverar vanligtvis mellan 100 och 500 patienter och testar läkemedlets aktivitet mot den specifika sjukdomen, medan fas III är den mest omfattande, med mellan 1 000 och 5 000 patienter som testas vid flera kliniska centra, ofta internationellt.

Trots den rigorösa och tidskrävande processen är det inte ovanligt att läkemedel får snabbare godkännande under exceptionella omständigheter. Under pandemin av COVID-19 såg vi en snabb godkännandeprocess för vacciner och behandlingar, där flera läkemedel fick accelererat godkännande för att snabbt hjälpa de som behövde behandling. Det finns flera skäl till att läkemedel kan få snabbare godkännande: förstklassiga läkemedel för sjukdomar utan botemedel, orfankemikalier för sällsynta sjukdomar, samt genombrottsmedel som riktar sig mot livshotande sjukdomar.

Men även om AI och snabbare godkännanden kan påskynda utvecklingen av läkemedel, är det fortfarande en process som innebär hög risk. Ett läkemedel som utvecklas kan i slutändan misslyckas med att få godkännande, vilket innebär att det sällan är en garanti att läkemedlet kommer att nå marknaden. Med hjälp av AI kan vi dock förutsäga och optimera molekylära egenskaper på ett sätt som var otänkbart tidigare, vilket förbättrar chanserna för framgång och minskar de resurser som krävs för att hitta fungerande läkemedel.

AI:s roll i läkemedelsupptäckt är mer än att bara accelerera processen – det handlar också om att förbättra precisionen och anpassningen av läkemedel till specifika patientgrupper. Genom att analysera stora mängder data och använda maskininlärning för att förutsäga hur olika molekyler kommer att interagera med biologiska mål kan forskare skapa skräddarsydda behandlingar för sjukdomar som tidigare varit svåra att behandla.

För att förstå AI:s påverkan på läkemedelsutveckling är det viktigt att erkänna att läkemedelsutveckling är en mycket komplex process där både biologiska och kemiska faktorer spelar en avgörande roll. Framväxten av nya teknologier, inklusive AI och maskininlärning, gör att vi inte bara kan förutsäga och designa nya läkemedel mer effektivt, utan även snabbare och med en högre grad av precision. Men det kräver fortfarande betydande investeringar, kunskap och tid för att transformera en idé till ett effektivt läkemedel som kan hjälpa patienter på global nivå.