Molekylfiltrering är en grundläggande metod inom modern läkemedelsforskning, där det primära målet är att snabbt identifiera och eliminera oönskade eller irrelevanta föreningar från ett stort bibliotek av molekyler. Genom att använda strukturella varningssignaler och substrukturfilter kan vi effektivt reducera storleken på vårt datamängd, samtidigt som vi behåller de föreningar som har potential för vidare undersökning. Ett exempel på denna process är användningen av Glaxo Wellcome hårda filter, där en uppsättning molekyler med specifika substrukturer filtreras bort. Detta resulterar i att mängden föreningar minskar dramatiskt, vilket gör den fortsatta undersökningen både mer fokuserad och kostnadseffektiv.
Som illustreras i exempel 2.8 och 2.9, har vi en process där molekyler med en viss substruktur tas bort från biblioteket. Till exempel kan molekyler som innehåller acylhydrazider, thioler eller reaktiva alkylhalider snabbt filtreras bort. Genom att bara använda ett par enkla filter har vi minskat storleken på vårt ursprungliga bibliotek med en tredjedel utan att förlora några potentiellt intressanta föreningar. De molekyler som kvarstår kan nu analyseras vidare, vilket gör processen både mer effektiv och mer resursbesparande.
I nästa steg av denna process kommer vi att använda molekylfingeravtryck för att representera molekyler som bitvektorer, där varje bit representerar närvaron eller frånvaron av specifika strukturella funktioner. Denna metod liknar att organisera böcker i ett bibliotek baserat på deras genre eller ämnesinnehåll, vilket gör det möjligt att snabbt hitta liknande molekyler utan att behöva jämföra varje enskild struktur manuellt. Fingeravtryck gör det möjligt att representera molekylens struktur i en kompakt form, vilket ger oss en möjlighet att snabbt identifiera molekyler som liknar kända läkemedelssubstanser för vidare utveckling.
Det finns två huvudtyper av fingeravtryck: strukturella nycklar och hashade fingeravtryck. Strukturella nycklar innebär att varje position i bitvektorn motsvarar en fördefinierad strukturell funktion, vilket gör det möjligt att snabbt avgöra om en molekyl har en viss funktion eller inte. Detta tillvägagångssätt är dock beroende av en fördefinierad fragmentbibliotek, vilket kan vara en begränsning när det gäller generalisering. Hashade fingeravtryck å andra sidan, är mer flexibla och kräver inte ett fördefinierat fragmentbibliotek. Istället bygger de på att bryta ner molekylen i alla möjliga linjära vägar av atomer eller bindningar och hashfunktioner som skapar ett fingeravtryck utan att behöva känna till den exakta strukturen i förväg.
När vi har utfört denna filtrering och skapat fingeravtrycken kan vi genomföra likhetsundersökningar för att identifiera de molekyler vars fingeravtryck är mest lika de hos kända antimalariamedel. De molekyler som visar hög likhet kan sedan genomgå ytterligare undersökningar och optimering.
Det är också viktigt att notera att valet av fingeravtrycksmetod har stor inverkan på resultatens kvalitet och tillämplighet i vidare forskning. Strukturella nycklar kan vara effektiva när man söker efter specifika, välkända strukturella funktioner, men de är begränsade till de funktioner som definieras i biblioteket. Hashade fingeravtryck erbjuder större flexibilitet, men de kan kräva mer avancerade beräkningsresurser och finjustering för att vara effektiva. Därför måste forskaren noggrant välja den metod som bäst passar den aktuella uppgiften och det specifika molekylbiblioteket.
Det är också avgörande att förstå hur molekylernas fingeravtryck används i det större sammanhanget av läkemedelsupptäckt. Genom att använda dessa fingeravtryck för att jämföra tusentals molekyler kan vi inte bara identifiera de mest lovande kandidaterna för vidare undersökning, utan även göra det på ett sätt som sparar både tid och resurser. Det kan vara frestande att lägga all fokus på att hitta den "perfekta" molekylen, men det är också viktigt att förstå att läkemedelsutveckling är en iterativ process där varje steg – från filtrering till fingerprinting – bidrar till att förfina och optimera de molekyler som till slut kan bli effektiva läkemedel.
Hur kan maskininlärning och virtuell screening revolutionera läkemedelsutveckling?
Maskininlärning (ML) och virtuella screeningsystem har blivit centrala i den moderna läkemedelsutvecklingen. Deras förmåga att hantera och analysera den enorma mängden kemiska föreningar som måste testas för att hitta ett effektivt läkemedel erbjuder lösningar på många av de problem som traditionella metoder brottas med. När industriföretag testas mellan 10^5 till 10^7 föreningar per dag beroende på komplexiteten i testerna, är det uppenbart att att experimentellt testa alla möjliga föreningar för att hitta ett potentiellt läkemedel är både praktiskt och tidsmässigt omöjligt. För att undersöka hela den kemiska rymden med alla möjliga föreningar, skulle det enligt vissa beräkningar ta längre än universums nuvarande ålder. Detta är just där maskininlärningens främsta värde ligger: att automatisera läkemedelsupptäcktsprocessen genom beräkningar, vilket gör det möjligt att övervinna de fysiska begränsningarna.
En grundläggande tillämpning av maskininlärning inom läkemedelsforskning är att system lär sig från data och gör förutsägelser utan att vara explicit programmerade att göra det. Till exempel kan vi träna en dator att känna igen molekyler med önskade egenskaper, på samma sätt som vi skulle lära ett barn att känna igen hundar i bilder. Detta gör det möjligt att förutsäga vilka molekyler som har önskvärda egenskaper, såsom låg toxicitet eller hög bindningsaffinitet till ett målprotein, utan att behöva genomföra dyra och tidskrävande experimentella tester för varje enskild förening.
Detta leder oss till begreppet virtuell screening (VS), en datorbaserad metod för att förutsäga och prioritera molekyler som potentiella läkemedelskandidater. Genom att simulera hur en molekyl interagerar med ett målmolekyl eller förutsäga andra relevanta egenskaper kan vi minska antalet föreningar som måste testas experimentellt. Traditionella metoder för virtuell screening, som molekylär docking och dynamiska simuleringar, använder fysikaliska principer för att förutsäga hur en molekyl kommer att röra sig eller binda sig till sitt mål. Dessa metoder är effektiva för att förutsäga bindningsaffinitet, men de är också mycket beräkningskrävande och långsamma, vilket gör dem mindre användbara för en bred kemisk sökning.
Maskininlärning erbjuder en snabbare och billigare lösning. Genom att använda data om molekyler och deras interaktioner kan maskininlärningsmodeller direkt förutsäga egenskaper som bindningsaffinitet, toxicitet och löslighet utan att behöva genomföra dyra simuleringar. När vi har tillräckligt med experimentell data om föreningars toxicitet och löslighet kan vi träna en maskininlärningsmodell som förutsäger dessa egenskaper för nya föreningar. Detta gör att vi kan testa miljarder föreningar på en dag och få en snabb bedömning av deras potential som läkemedelskandidater, vilket innebär att vi identifierar misslyckanden tidigt och sparar både tid och pengar.
En annan revolutionerande tillämpning av maskininlärning inom läkemedelsutveckling är generativ kemi, eller de novo design. I stället för att välja bland redan kända föreningar, använder generativ kemi maskininlärning för att skapa helt nya molekyler som uppfyller specifika egenskapskrav. Genom att mata in önskade egenskaper som hög löslighet eller låg toxicitet kan vi använda generativa modeller för att skapa molekylstrukturer som matchar dessa krav. På detta sätt kan vi gå bortom traditionell screening och direkt generera nya läkemedelskandidater, vilket ytterligare skyndar på upptäckten av nya läkemedel.
Det är dock viktigt att förstå att trots dessa framsteg i beräkningskapacitet och hastighet är de fortfarande bara en del av läkemedelsutvecklingens långsiktiga process. Till exempel, även om virtuella screeningsystem kan testa miljarder föreningar per dag, täcker de fortfarande bara en bråkdel av hela det kemiska landskapet som skulle behöva undersökas för att hitta de bästa läkemedelskandidaterna. Därför är det inte en magisk lösning, utan snarare en kraftfull metod som gör det möjligt att effektivisera och accelerera forskningsprocessen.
En annan viktig aspekt är att trots den stora potentialen för AI och maskininlärning att driva på läkemedelsutvecklingen, innebär det inte att den mänskliga faktorn förlorar sin betydelse. För att maximera de nya teknologiernas effektivitet krävs att experter på områden som kemi, biologi och medicin arbetar tillsammans med datavetare för att skapa modeller som verkligen kan förstå och förutsäga de komplexa biologiska interaktionerna som ligger bakom läkemedelsverkan och toxicitet. Likaså behövs en noggrann kontroll och utvärdering av resultaten från maskininlärningsmodeller, eftersom modellerna kan vara benägna att dra felaktiga slutsatser om de tränas på ofullständig eller felaktig data.
Sammanfattningsvis erbjuder maskininlärning och virtuella screeningsystem en möjlighet att revolutionera läkemedelsutveckling genom att göra processen snabbare, billigare och mer effektiv. Men det är också viktigt att förstå att dessa metoder, trots sina fördelar, måste användas i kombination med traditionella forskningsmetoder och noggrann expertgranskning för att vara fullt effektiva.
Hur förutsäga hERG-blockering med maskininlärning?
I det här fallet är mängden möjliga ingångar hela det kemiska rummet av läkemedelsliknande föreningar, och mängden möjliga utgångar är ett enkelt "ja" eller "nej" om en given förening kommer att blockera hERG-kanalen. Varje individuell förening, x, representeras med egenskapsinformation som kan hjälpa till att förutsäga om den främjar hERG-blockering. Dessa egenskaper kan inkludera molekylära deskriptorer (som molekylvikt, LogP), strukturella fingeravtryck (som kodar för närvaron av substrukturer) eller annan information – i princip varje numerisk representation som, a priori, vi misstänker kan korrelera med hERG-aktivitet. Vår datamängd innehåller par av ingångar och utgångar (x₁, y₁),…,(xₙ, yₙ), där varje yₙ för n=1,…,N är utgången av att mata in motsvarande xₙ i en funktion f.
I vårt exempel med hERG-blockering representerar varje x en molekylstruktur med dess associerade egenskaper, och varje y representerar den experimentellt bestämda hERG-aktiviteten (där y=1 indikerar "blockerar hERG" och y=0 indikerar "blockerar inte hERG"). Vi kan formellt definiera vårt problem som en matematisk funktion, f: X→Y, som mappar mängden av alla möjliga ingångar, X (det fullständiga kemiska rummet av läkemedelsliknande föreningar), till mängden av alla möjliga utgångar, Y ("ja" eller "nej" till hERG-blockering). Funktionen f representerar lösningen på vårt problem, och vi refererar till den som målfunktionen. Målfunktionen representerar den verkliga sanningen. Om vi redan kände till exakt vad f är, skulle vi inte behöva träna någon modell. Tyvärr är f okänd för oss, och vi måste försöka approximera hela funktionen från de få exempel vi har i vår träningsdatamängd.
Vi kommer att träna en modell som mappar våra ingångar till en förutspådd utgång. Idealiskt sett ska vår tränade modell ge korrekta förutsägelser på vår träningsdatamängd som representerar historiska provbeteenden, samtidigt som den generaliserar till nya föreningar som vi inte har några träningsprover för och som modellen aldrig har stött på. Vårt mål är att skapa en beräkningsmässig genväg som snabbt kan screena stora bibliotek av föreningar för potentiell hERG-risk utan att kräva resurskrävande experimentell testning för varje förening. Detta utgör grunden för hur vi angriper inte bara förutsägelse av hERG-risk, utan i stort sett alla strukturbaserade prediktionsuppgifter inom läkemedelsutveckling. Oavsett om vi förutspår bindningsaffinitet, löslighet eller metabolisk stabilitet, förblir den grundläggande metoden för att mappa från kemiska strukturer till biologiska/fysikaliska egenskaper konsekvent, även om de specifika funktionerna och modellerna är anpassade för varje prediktionsuppgift.
Träningsdatamängden representerar ett urval av hela rummet av läkemedelsliknande kemiska föreningar. Beroende på hur datan har samlats in kan delmängden av det kemiska rummet som vår modell exponeras för variera drastiskt. Vi hoppas att vår tränade modell är korrekt där vi inte har träningsprover och att fördelningen av träningsmängden approximera den verkliga fördelningen av målfunktionen. Ju mer data vi har, desto mer sannolikt är det att båda dessa antaganden håller och att vi kan uppnå en performativ modell.
Målfunktionen representerar den verkliga sanningen. Det är en okänd funktion som mappar indata till motsvarande mål eller etikettvärden. Svårigheten är att vi måste lära oss hela funktionen från några få träningsinstanser. Vi kommer att uppskatta modellens vikter som "passar" träningspunkterna exakt, under antagandet att den resulterande funktionen är korrekt där vi inte har träningsprover. Vi antar också att fördelningen av de prover som utgör vår träningsmängd är ekvivalent med målfunktionens fördelning. Ju mer data vi har, desto mer sannolikt är det att båda antagandena håller.
Lärande och optimering
Frågan som återstår är hur vi använder den data som finns tillgänglig för oss för att träna en modell. För enkelhetens skull kommer vi att överväga endast parametriska modeller (såsom de i detta kapitel) och reserverar diskussionen om icke-parametriska modeller till kapitel 7. Under träningen konsumerar vår ML-modell träningsdata kodad som funktioner och lär sig hur dessa funktioner ska mappas till den egenskap vi vill förutsäga. Vår modell styrs av ett antal vikter (eller parametrar). Vikterna är reella tal som uttrycker vikten av modellens ingångar för dess utgång. Modellens vikter styr hur modellen mappar indata till förutsägelser. Värdet på varje vikt påverkar modellens förutsägelser och, därmed, dess prestation.
Modellets prestation utvärderas genom kvaliteten på dess förutsägelser. Om förutsägelserna är dåliga, vilket de sannolikt kommer att vara i början, behöver vår modell en mekanism för att lära sig från erfarenhet, ändra sina vikter och förbättra sin prestation. Lärandealgoritmer gör det möjligt för modellen att automatiskt justera vikterna baserat på prestation. Lärandeprocessen innebär att man optimerar parametriska modellvikter för att uppnå exakta förutsägelser både på träningsdatan och på ny, osedd data.
Varje möjlig kombination av viktvärden representerar en separat hypotesfunktion. När vi tränar vår modell justerar modellen iterativt värdena på dessa vikter när den lär sig att känna igen mönster i datan på olika nivåer av abstraktion. Med varje iteration av träning hjälper lärandealgoritmen modellen att justera sina vikter i den riktning som förbättrar prestationerna på vår träningsuppsättning.
När vi har valt vår slutgiltiga, tränade modell, inför vi inte längre några vikjusteringar. Vikterna fryses och är nu en integrerad del av modellen. Under inferens, när modellen möter ny, tidigare osedd data, gör den förutsägelser utan att justera vikterna vidare.
Parametriska kontra icke-parametriska modeller
Det finns många typer av maskininlärningsmodeller som vi kan välja för ett givet problem. Beroende på de antaganden som görs om den underliggande datadistributionen kan vi dela upp dessa modeller i två kategorier: parametriska modeller och icke-parametriska modeller. Parametriska modeller gör antaganden om den funktionella formen eller formen på datadistributionen. Dessa antaganden uttrycks i termer av ett fast antal parametrar eller vikter, som lärs från träningsdatan. Konceptet vikter kan uttryckas på olika sätt i olika modeller, men den grundläggande idén är att tilldela betydelse eller inflytande till olika komponenter i ingångsdata.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский