Hur man optimerar molekylbibliotek för läkemedelsupptäckt genom likhetsbaserad screening

I den här delen kommer vi att diskutera hur vi hanterar ett stort molekylbibliotek och hur vi genomgår filtrering och likhetsbaserad screening för att identifiera potentiella aktiva föreningar, särskilt i sammanhanget för att hitta läkemedel mot malaria. Ursprungligen startade vi med ett bibliotek bestående av över 212 000 små molekyler, men efter att ha tillämpat olika filter och likhetsmått minskade antalet träffar dramatiskt till 1225 föreningar.

För att förstå varför det sker, måste vi först betrakta de filter vi tillämpar på vårt bibliotek. Dessa filter är utformade för att säkerställa att molekylerna uppfyller grundläggande farmakologiska och kemiska kriterier. Till exempel måste molekylerna följa Lipinski's Rule of 5, vilket är en uppsättning tumregler som anger att molekyler som ska vara potentiella läkemedel måste ha en viss storlek, lipofilicitet och polär karaktär. Dessutom gör vi användning av filter för att identifiera och ta bort molekyler med potentiellt oönskade strukturer, såsom de som kan associeras med PAINS (Pan Assay Interference Compounds) eller BRENK-filter för att eliminera problematiska substrukturer.

En viktig aspekt av likhetsbaserad screening är att den inte bara handlar om att hitta molekyler som liknar en given "query"-molekyl i strukturell mening. Det handlar också om att förstå att molekyler med strukturellt små skillnader kan ha helt olika biologisk aktivitet. Denna fenomen kallas för "activity cliffs" och är ett centralt problem vid molekylmodellering och läkemedelsdesign. Små förändringar i molekylens struktur kan resultera i drastiska skillnader i funktion och effektivitet, vilket innebär att likhetsbaserade sökningar inte alltid ger en perfekt lösning för att förutsäga biologisk aktivitet.

För att genomföra en likhetsbaserad sökning behöver vi representera molekyler på ett sätt som datorer kan bearbeta. Här kommer molekylbeskrivningar, eller "fingerprints", in i bilden. Molekylfingerprints är bitar av information som representerar närvaron eller frånvaron av specifika fragment eller strukturer i en molekyl. De vanligaste metoderna för att mäta likhet mellan två molekyler är Tanimoto och Dice likhetsmått. Dessa mått beräknas genom att jämföra hur många gemensamma bitar det finns i molekylernas fingerprints i förhållande till den totala mängden bitar.

Det är viktigt att komma ihåg att även om likhetsmått kan ge oss en vägledning, är det inte en garanti för att molekyler med hög likhet i strukturen också kommer att ha liknande biologisk aktivitet. Detta är varför vi måste vara försiktiga och noggrant utvärdera varje resultat. Att dokumentera varje beslut och metod som används under processen är avgörande för att andra forskare ska kunna reproducera och förstå våra resultat.

För att förstå effektiviteten av denna typ av screening kan vi också titta på de resultat vi får från att genomföra likhetsbaserad screening mot en specifik uppsättning referensföreningar, såsom Malaria Box. Vi utför denna screening genom att matcha vår föreningens bibliotek mot 400 referensstrukturer som finns i Malaria Box. Även om vi får 1225 träffar från vårt bibliotek, är detta fortfarande en relativt liten mängd i förhållande till vårt ursprungliga bibliotek, vilket understryker vikten av att noggrant filtrera och välja rätt molekyler för vidare forskning.

Molekylers fysiska och kemiska egenskaper är avgörande när det gäller att förutsäga deras förmåga att interagera med biologiska mål. Det handlar inte bara om att hitta molekyler som är strukturellt lika, utan också att säkerställa att de har de rätta fysiska egenskaperna, såsom rätt storlek och rätt grad av polaritet, för att kunna binda till och påverka det biologiska målet effektivt. Denna typ av screening är dock bara en del av en större process som även involverar ytterligare beräkningssteg för att bedöma säkerheten och effektiviteten hos de återstående molekylerna i vårt bibliotek.

För att förstå och optimera denna process ytterligare, är det viktigt att integrera maskininlärning och andra beräkningsmetoder i vårt arbete. Dessa verktyg gör det möjligt att förutsäga och simulera molekylers egenskaper baserat på deras strukturella beskrivningar, vilket hjälper oss att minska antalet molekyler vi behöver testa experimentellt och öka chansen att hitta potentiella läkemedelskandidater. I de kommande kapitlen kommer vi att fokusera på dessa avancerade metoder och visa hur vi kan förfina vår screeningprocess ytterligare.

Förutom den redan nämnda "activity cliffs"-problematiken finns det ytterligare faktorer som kan påverka resultaten av likhetsbaserade sökningar. Molekylers konformationella flexibilitet är en sådan aspekt; vissa molekyler kan ha olika konformationer vid olika temperaturer eller i olika lösningsmedel, vilket kan påverka deras biologiska aktivitet. Därför är det viktigt att använda 3D-strukturella modeller och dynamiska simuleringar för att bättre förstå hur molekyler interagerar med sina biologiska mål.

I sammanhanget av läkemedelsdesign och virtual screening, är det också nödvändigt att noggrant välja vilka filter och metoder man använder, beroende på det specifika målet och de data man arbetar med. Det är inte bara en fråga om att tillämpa en uppsättning standardfilter, utan om att anpassa metoden för att möta de unika utmaningarna och kraven för varje nytt läkemedelsprojekt.

Hur Maskininlärning Används i Förutsägelsen av Kardiotoxicitetsrisker

Maskininlärning (ML) har blivit en oumbärlig del av den moderna läkemedelsutvecklingen, särskilt när det gäller att förutsäga risker som kan uppkomma under kliniska tester, som kardiotoxicitetsrisker. Att skapa effektiva modeller som kan förutsäga sådana risker kan spara både tid och resurser, samtidigt som de förbättrar säkerheten för nya läkemedelsbehandlingar. Denna process kräver en noggrant strukturerad arbetsflöde, där varje steg är avgörande för att bygga en användbar och tillförlitlig ML-modell.

I den här processen börjar vi med att definiera problemet. För att kunna bygga en bra ML-modell behöver vi först förstå exakt vad vi försöker förutsäga. I vårt fall handlar det om att identifiera föreningar som med hög sannolikhet kommer att orsaka kardiotoxicitetsrisk genom att blockera hERG-kanalen, en viktig biologisk målstruktur som är förknippad med hjärtkomplikationer. Genom att filtrera bort föreningar som blockerar denna kanal kan vi minska risken för negativa biverkningar och därmed förbättra både patienters säkerhet och forskningsresultat.

För att definiera vår modell mer exakt behöver vi också sätta upp klara mål och krav för projektet. Vad anses som en framgång? I vårt fall kommer modellens framgång att mätas i dess förmåga att korrekt förutsäga om en förening är säker (inte blockerar hERG-kanalen) eller riskabel (blockerar kanalen eller osäkerhet i förutsägelsen). Det handlar om att undvika två specifika typer av fel: att missa en farlig förening som går vidare till kliniska tester, och att felaktigt identifiera en säker förening som riskabel, vilket kan stoppa en lovande läkemedelskandidat för tidigt.

Nästa steg är datainsamling och förbehandling. I den här fasen samlar vi in alla relevanta data som kan hjälpa oss att förstå vilka föreningar som potentiellt kan vara riskfyllda. För detta ändamål kommer vi att använda föreningar som har likhet med de i Malaria Box-databasen, men vi kommer att filtrera bort de som aktiverar antitargets, särskilt hERG-kanalen. Dessa data måste sedan bearbetas och standardiseras för att passa de krav som ställs på en maskininlärningsmodell.

Vidare måste vi extrahera och skapa funktioner från våra data som kan användas som ingångsvärden för modellen. Funktionerna representerar de individuella egenskaperna hos varje datapunkt – till exempel en förenings struktur eller molekylära egenskaper. Dessa funktioner är fundamentala för modellens inlärning, eftersom det är genom att koppla dessa egenskaper till ett resultat (antingen säker eller risk) som modellen lär sig att göra sina förutsägelser.

När vi har förberett våra data kan vi börja träna vår modell. I det här fallet handlar det om att välja rätt algoritm som kan göra förutsägelser baserat på de funktioner vi har extraherat. En linjär modell är en bra start, men vi kommer också att undersöka mer komplexa icke-linjära modeller för att förbättra noggrannheten. Här är det viktigt att förstå att maskininlärning inte handlar om att skapa en perfekt modell från början, utan om att iterera och förbättra modellen steg för steg.

För att verkligen optimera vår modell behöver vi finjustera hyperparametrar, vilket görs genom tekniker som grid search och random search. Dessa metoder hjälper oss att hitta de bästa inställningarna för vår modell så att den kan generalisera bra på nya data. Vid varje steg av träningen och optimeringen är det viktigt att utvärdera modellen noggrant, inte bara för att se hur den presterar på träningsdata, utan också för att förstå dess svagheter och fel.

En annan viktig aspekt är att hålla modellen uppdaterad och underhållen. När modellen är implementerad i en produktionsmiljö för att göra förutsägelser på nya, osedda data, måste den övervakas för att säkerställa att den fortsätter att prestera bra. Detta kräver kontinuerlig utvärdering och ibland återkoppling till tidigare faser av arbetsflödet, till exempel att samla in ny data eller justera funktionsutvinning.

Det finns dock fler dimensioner att tänka på än bara den tekniska implementeringen. I en verklig industriell miljö kan maskininlärning vara en del av en större, mer komplex pipeline som omfattar både regulatoriska krav och affärsmål. En ML-modell kan vara extremt effektiv för att förutsäga kardiotoxicitetsrisker, men den måste också anpassas till de specifika krav och tidsbegränsningar som finns inom läkemedelsutveckling. Det är också viktigt att förstå att en bra modell inte bara handlar om att uppnå hög teknisk precision, utan om att kunna översätta denna precision till affärsnytta, vilket innebär att förstå och anpassa sig till både kortsiktiga och långsiktiga mål.

För att uppnå bästa möjliga resultat är det också viktigt att förstå gränserna för vad maskininlärning kan erbjuda. Trots alla tekniska framsteg och algoritmer har ML-modeller sina begränsningar, och det är viktigt att inte förlita sig enbart på teknologin för att lösa alla problem. Många gånger kan en enklare regelbaserad metod, såsom strukturella varningar för hERG-blockering, vara tillräcklig i vissa fall. Därför är det viktigt att välja den bästa metoden för varje specifikt problem baserat på både tekniska och praktiska överväganden.

Hur påverkar maskininlärning och djupinlärning effektiviteten i läkemedelsdesign?

Struktur-baserad läkemedelsdesign (SBDD) är en viktig metod inom läkemedelsutveckling som använder sig av kunskap om tredimensionella strukturer hos biologiska mål, såsom proteiner involverade i sjukdomar, för att designa och välja molekyler som kan interagera med och modulera dessa funktioner. En nyckelmetod inom SBDD är molekylär docking, en process som simulerar hur en liten molekyl (en potentiell läkemedelskandidat) binder sig till ett målprotein. Denna metod används för att förutsäga hur väl en molekyl binder till proteinet och gör det möjligt att screena stora bibliotek av föreningar för att identifiera lovande läkemedelskandidater.

Docking är en beräkningsintensiv process. Varje simulerad docking kräver komplexa beräkningar för att utforska både molekylens och proteinets konformationslandskap, bedöma olika bindningspositioner och beräkna deras energetiska fördelaktighet. För traditionella dockingmetoder innebär detta stora beräkningskostnader, särskilt när man arbetar med de enorma kemiska rummen i moderna databasbibliotek som kan innehålla miljarder molekyler.

Djupinlärning har dock potential att avsevärt underlätta dessa beräkningsstrategier. En metod som kallas progressiv docking har utvecklats för att minska den beräkningsmässiga bördan genom att undvika att docka varje enskild molekyl i en databas. Istället dockas en mindre uppsättning molekyler initialt, och de resulterande dockningspoängen används för att träna en modell. Denna modell förutspår sedan bindningsaffiniteten för återstående föreningar i databasen, vilket gör att den beräkningsintensiva dockningen kan undvikas för majoriteten av molekylerna. Molekyler med tillräckligt höga förutsagda poäng kan sedan behållas för vidare dockning eller andra experiment som kräver hög beräkningskraft.

Progressiv docking har utvecklats över tid, och tidigare iterationer var begränsade av de mindre storlekarna på de kemiska biblioteken som fanns tillgängliga. I de tidiga faserna kunde det vara möjligt att docka alla molekyler, men med exponentiell tillväxt av dessa bibliotek och framsteg inom djupinlärning har metoder som progressiv docking blivit nödvändiga för att effektivisera processen. Initiativ som CACHE (Critical Assessment of Computational Hit-finding Experiment) har visat sig ge värdefull verklig validering för dessa beräkningsmetoder. I CACHE-1 utmaningen, som fokuserade på ett protein implicerat i Parkinsons sjukdom, användes en djupinlärningsplattform baserad på progressiv docking för att reducera en databas med 4 miljarder molekyler till cirka 17,9 miljoner lovande kandidater. Denna metod förfinades vidare genom att använda automatiserade maskininlärningstekniker som tillsammans med expertkunskap minskade antalet till 800 molekyler, vilket sedan kunde verifieras genom dynamiska molekylsimuleringar.

Detta är ett utmärkt exempel på hur djupinlärning och maskininlärning kan hjälpa till att snabba upp identifiering och optimering av potentiella läkemedel genom att fokusera på de mest lovande kandidaterna. Detta leder oss till nästa fas, där mer komplexa och rigorösa metoder som används för att förfina och validera tidiga dockingresultat också kan dra nytta av dessa tekniker.

En central del i denna process är förståelsen av hur proteiner fungerar. Proteiner är inte rigida strukturer, utan dynamiska entiteter som kontinuerligt utforskar en mängd olika konformationer. Varje protein kan anta en mängd olika former, beroende på antalet atomer och roterbara bindningar, vilket gör deras konformationslandskap betydligt mer komplext än för små molekyler. Biologiska system säkerställer att många proteiner veckar sig till funktionella strukturer, vilket gör att även om en proteinstruktur kan anta ett stort antal konfigurationer, finns det en termodynamisk tendens att proteinet antar en stabil och funktionell form.

I denna dynamik ligger en av de största utmaningarna i läkemedelsdesign – att identifiera molekyler som inte bara binder till ett protein utan gör det på ett sätt som påverkar proteinets funktion på ett fördelaktigt sätt. Därför är det viktigt att förstå hur proteinets struktur kan variera och hur dessa variationer kan påverka bindningsinteraktioner med små molekyler. Här kommer tekniker som molekylär docking och progressiv docking in, eftersom de tillåter oss att inte bara förutsäga bindningarna mellan molekyler och proteiner, utan även att iterera och förbättra dessa förutsägelser genom maskininlärning.

Slutligen är det viktigt att förstå att framstegen inom läkemedelsdesign genom dessa beräkningsmetoder inte enbart handlar om att snabba upp processen för att hitta nya läkemedelskandidater. De hjälper oss också att minska de resurser som krävs för att genomföra experiment, vilket gör det möjligt att utföra mer omfattande skärningar av de kemiska biblioteken. Djupinlärning och maskininlärning ger forskare de verktyg som behövs för att effektivt utforska dessa enorma rum av potentiella läkemedel, vilket potentiellt kan minska både kostnader och tidsåtgång för att ta fram nya behandlingar.

Hur påverkar datakvalitet läkemedelsforskning och modellutveckling?

Läkemedelsforskning bygger på tillgången till stora datamängder som täcker både biologiska och kemiska aspekter av läkemedelsutveckling. En mängd databaser som ChEMBL, PubChem och Protein Data Bank tillhandahåller enorma mängder information som kan användas för att förstå biologiska mekanismer och optimera läkemedel. Dessa resurser är centrala för att identifiera nya läkemedel, förstå deras effekt och förutse hur de interagerar med sina målmolekyler.

ChEMBL, som upprätthålls av European Bioinformatics Institute (EBI), är en databas som samlar forskning publicerad under mer än 40 år. Den innehåller över 213 datasets, nästan 86 000 publikationer och mer än 2,4 miljoner föreningar. På samma sätt erbjuder PubChem, en databas under National Institutes of Health (NIH), över 1114 miljoner föreningar och 302 miljoner substanser. Dessa databaser är grunder för att förstå kemiska och biologiska egenskaper, och de är ofta förenade med målinriktad forskning för specifika sjukdomar som COVID-19.

Protein Data Bank (PDB) är en annan viktig källa som innehåller detaljerad tredimensionell strukturell information om biologiska molekyler som proteiner och RNA. Genom att använda teknologier som cryo-EM och röntgendiffraktion kan forskare få en bild av hur läkemedel binder till sina målproteiner. Denna strukturinformation är avgörande för att designa molekyler som kan interagera effektivt med biologiska strukturer.

Förutom dessa stora databaser finns ytterligare resurser som ChemSpider och DrugBank som tillhandahåller kemiska strukturer, läkemedelsinformation och kliniska data. DrugBank, till exempel, ger detaljer om både godkända läkemedel och experimentella substanser och deras farmakologiska och biologiska mål. Human Metabolome Database (HMDB) ger information om små molekyler och metaboliska vägar i människokroppen, vilket ytterligare förbättrar vår förståelse av läkemedels effekter på metabolism och sjukdomstillstånd.

Trots den rika tillgången på dessa datakällor är det viktigt att förstå att kvaliteten på data som används för att bygga modeller inom läkemedelsforskning är avgörande. Det finns en inneboende risk med att använda sekundära datakällor som bygger på tidigare insamlad forskning. Sekundära databaser kan, beroende på hur de är sammanställda och bearbetade, innehålla felaktigheter eller bias. För att säkerställa att den data som används är pålitlig, bör man kontrollera dess ursprung och provenance.

När det gäller maskininlärning och läkemedelsforskning innebär dålig datakvalitet ett allvarligt problem – en effekt som ofta kallas "Garbage in, garbage out". Om de data som matas in i modellerna inte är tillförlitliga, kan resultaten bli lika felaktiga. Modeller som tränas på data av låg kvalitet kommer troligen att ha låg generaliserbarhet och tillförlitlighet när de appliceras på nya molekyler eller läkemedel. Därför måste man noggrant verifiera källorna till de data man använder för att bygga modeller, samt förstå vilka processer som ligger bakom datainsamlingen och bearbetningen.

En annan viktig aspekt är mångfalden i de kemiska strukturer som används för att träna modeller. Om en databas är begränsad till en specifik uppsättning strukturer kan detta snäva in modellerna och minska deras förmåga att förutsäga effekter eller interaktioner för läkemedel med olika eller mer komplexa strukturer. En datamodell som bygger på en för liten och homogen uppsättning molekyler kommer att ha svårt att generalisera till okända, mer komplexa läkemedelskandidater. Därför bör data som används för att bygga modeller vara representativ för den variation som finns i den verkliga kemiska världen.

För att kunna bygga robusta modeller krävs också en förståelse för hur databaserna validerar och sammanställer data. Att vara medveten om metodologin bakom datainsamlingen och bearbetningen gör det möjligt att mer effektivt navigera i de komplexa landskapen av biomedicinska data och därigenom bättre utnyttja informationen i läkemedelsforskning. Att ha kontroll över datans kvalitet är inte bara en teknisk fråga, utan en grundläggande förutsättning för att kunna utveckla läkemedel som verkligen gör skillnad.

Hur mäts ljus och synfunktioner i klinisk optik?
Hur är grafteori kopplad till molekylära orbitaler i Huckel-modellen?
Hur man konfigurerar Keystone för LDAP och Multi-Domain Support i OpenStack
Hur Tyskland Framgångsrikt Har Byggt Upp Sin Solenergisektor Trots Låg Solstrålning
Hur definieras grov universell partition för tvådimensionella modeller och vad innebär det för KCM och BP?