Ligandbaserad screening är en nyckelmetod inom läkemedelsforskning, där den primära målsättningen är att identifiera föreningar som kan binda till specifika biologiska mål och modulera relevanta terapeutiska mekanismer. Detta sker genom att utnyttja en datormodell för att genomföra virtual screening av kemiska föreningar, vilket fungerar som ett komplement eller alternativ till experimentell screening i labbet. Genom denna metod kan vi snabbt och effektivt undersöka miljontals föreningar utan att behöva syntetisera och testa varje enskild substans i ett fysiskt laboratorium.

Virtual screening har flera fördelar jämfört med traditionella metoder. För det första är det billigare och snabbare att använda datormodeller för att skanna igenom en kemisk bibliotek och välja ut de föreningar som har störst potential att interagera med ett målprotein. En framgångsrik virtual screening-strategi innebär att man genomför ett tidigt urval av en mindre mängd föreningar där en större andel aktiva föreningar identifieras än vid slumpmässig urval. Denna strategi minskar de efterföljande kostnaderna för experimentell screening, vilket gör hela processen mer kostnadseffektiv.

För att förstå virtual screening måste man förstå den grundläggande skillnaden mellan experimentell screening och virtual screening. I den experimentella screeningmetoden genomförs tester för att mäta interaktionen mellan föreningar och ett biologiskt mål, ofta i en högthroughput-format som gör det möjligt att testa upp till miljoner av föreningar på kort tid. Emellertid är denna metod mycket dyr och tidskrävande när det gäller mer komplexa tester. Virtual screening, å andra sidan, möjliggör att vi kan testa mycket större bibliotek av föreningar, inklusive sådana som ännu inte har syntetiserats. Denna fördel ger oss möjlighet att skala upp tester och utföra screening på miljarder föreningar utan att behöva syntetisera dem i förväg.

Det finns olika metoder för att genomföra ligandbaserad virtual screening. En av de enklaste och mest använda metoderna är att använda så kallade "drug-likeness filters", som identifierar föreningar som har önskvärda egenskaper för läkemedel. Dessa filter kan baseras på olika kriterier som molekylvikt, lipofilisitet eller antalet vätebindningsacceptorer och donatorer. En av de mest använda riktlinjerna är Lipinskis "Rule of Five", som anger att en förening inte är läkemedelslik om den bryter mot mer än en av följande regler: molekylvikten ska vara mindre än 500 dalton, logP-värdet ska vara mindre än 5, föreningen får inte ha fler än 10 vätebindningsacceptorer, och den får inte ha fler än 5 vätebindningsdonatorer.

Efter att de enklaste filtren har tillämpats, kan virtual screening delas upp i två huvudgrupper beroende på tillgången till målmolekylens 3D-struktur. Om målets struktur är känd, kan vi använda strukturbaserade metoder som molekyldockning, där vi modellerar interaktionen mellan små molekyler och proteinets bindningsställen. Om däremot den 3D-struktur av målet inte är känd, kan vi använda ligandbaserade metoder för screening, där vi jämför likheten mellan de föreningar vi har och kända aktiva ligander.

Vid ligandbaserad screening används olika strategier för att upptäcka hit-föreningar. En sådan metod är likhetssökning (similarity searching), där vi söker efter föreningar som liknar en redan känd aktiv förening. Genom att använda en likhetssökning kan vi identifiera potentiella nya kandidater genom att mäta hur mycket en given molekyl liknar en känd förening som redan har visat aktivitet mot ett mål. En annan viktig metod är att använda farmakoforbaserade modeller, som bygger på de gemensamma funktionella grupper och strukturella egenskaper hos en uppsättning aktiva föreningar.

Den här typen av screening är särskilt relevant när det gäller att hitta antimalariamedel, som är en av de centrala målsättningarna i många läkemedelsutvecklingsprogram. För att hitta nya antimalariamedel kan man använda likhetssökningar på databaser av föreningar och filtrera ut de med egenskaper som gör dem lämpade för vidare tester. Detta kan inkludera att prioritera föreningar som uppfyller krav på farmakologiska egenskaper, som lipofilicitet eller vattenlöslighet, samt att de inte har några kända strukturella varningsflaggor som kan indikera att de är oönskade eller giftiga.

Utöver de tekniska aspekterna av virtual screening är det viktigt att förstå hur datamängder och maskininlärning samverkar för att göra processen ännu mer effektiv. Genom att träna maskininlärningsmodeller på data från högthroughput screening kan vi skapa modeller som kan förutsäga vilka föreningar som har störst chans att vara aktiva mot ett mål. Dessa modeller kan sedan användas för att snabbt och billigt skanna genom miljarder av föreningar för att hitta de mest lovande kandidaterna. I och med den ökande tillgången till storskaliga datamängder och förbättrade algoritmer, har virtual screening blivit en oumbärlig del av den moderna läkemedelsutvecklingen.

Det är också avgörande att förstå att virtual screening inte är en magisk lösning för alla problem. Det är viktigt att ha realistiska förväntningar på denna metod. Den är kraftfull, men det krävs fortfarande ett stort mått av expertis för att tolka resultaten korrekt och implementera den på ett effektivt sätt. En annan aspekt som måste beaktas är att även om virtual screening kan identifiera lovande föreningar, måste dessa föreningar genomgå rigorösa experimentella tester för att bekräfta deras biologiska aktivitet och säkerhet innan de kan övervägas som potentiella läkemedel.

Hur molekylbeskrivningar och filter påverkar läkemedelsutveckling

Inom läkemedelsutveckling är det avgörande att effektivt screena föreningar för att identifiera de med önskvärda egenskaper. En viktig aspekt av detta är att eliminera föreningar som har starkt reaktiva grupper som kan leda till oönskade biverkningar eller interaktioner. Dessa föreningar kan skapa problem genom att inducera icke-specifika effekter (off-target effects) eller förstöra läkemedlets stabilitet och säkerhet, vilket gör dem olämpliga för vidare forskning och utveckling. Därför är det avgörande att inte behålla föreningar som inte är kemiskt rimliga eller som bryter mot grundläggande regler för kemi, till exempel valensregler. För de flesta dataset som vi arbetar med i denna del, antar vi att föreningarna är kemiskt valida om de passerar RDKit:s standardvalidering och sanering. För vissa särskilda fall, som arbete med icke-standardiserad kemi eller när exakt representation av ingående föreningar är viktigare än kemisk validitet, kan sanering stängas av. Detta görs genom att definiera smartspecifikationen som sanitize=False.

En ytterligare komplexitet med SMILES-strängar är att samma molekyl kan representeras på flera olika sätt. Redundant strukturinformation kan även bero på om vi bevarar information om chirality eller isotoper under molekylär standardisering. För att förhindra att dessa redundanta strukturer skapar brus i datan måste vi kanonalisera SMILES till "unika SMILES". Om vi bevarar information om isotoper och chirality, benämns den unika SMILES som "absoluta SMILES". I RDKit, till exempel, omvandlas Molekylobjekt till SMILES-format där molekylen kanonikaliseras och stereokemisk information bevaras genom att sätta canonical=True och isomericSmiles=True.

Molekylbeskrivare är viktiga för att kunna beskriva och kvantifiera molekylers egenskaper på ett sätt som gör det möjligt att använda denna information i filtreringsprocesser eller för att träna modeller som kan förutsäga nya föreningars egenskaper. Molekyler är komplexa och hur vi bearbetar deras struktur och data påverkar en modells förmåga att lära sig av dessa. För att kunna filtrera och analysera molekyler på ett systematiskt sätt använder vi molekylbeskrivare. Det finns tusentals olika beskrivare som kvantifierar olika molekylära egenskaper, och många av dessa kan beräknas med hjälp av olika programvara, som till exempel RDKit.

RDKit, som är ett kraftfullt verktyg för kemoinformatik, kan beräkna upp till 209 olika molekylbeskrivare. Dessa beskrivare omfattar både fysiskt-kemiska och strukturella egenskaper som molekylens vikt, logP (lipofilicitet), antal vätebindningsacceptorer och donatorer, samt andra topologiska och kvantkemiska egenskaper. Att använda RDKit för att beräkna dessa beskrivare gör det möjligt för oss att på ett effektivt sätt filtrera ut molekyler som inte uppfyller specifika kriterier, såsom de som strider mot de grundläggande reglerna för läkemedelsutveckling.

När vi beräknar molekylbeskrivare i RDKit kan vi välja att fokusera på några specifika parametrar som är särskilt viktiga i läkemedelsutveckling. Ett vanligt exempel är att mäta molekylens logP, som är ett mått på dess lipofilicitet. Molekyler med för hög lipofilicitet (logP större än 5) tenderar att vara för opolära för att effektivt lösa sig i vattenlösning och kan ha svårt att passera biologiska membraner. Detta påverkar deras förmåga att tas upp via mag-tarmkanalen vid oralt intag, vilket är en viktig egenskap i läkemedelsutveckling.

Filtrering av molekyler är en viktig åtgärd för att skära bort olämpliga föreningar från stora screeningbibliotek, vilket sparar tid och resurser i de senare faserna av utvecklingen. En grundläggande typ av filtrering är baserat på molekylens fysiskt-kemiska egenskaper, som molekylvikt, logP och antal vätebindningsacceptorer och donatorer. Dessa egenskaper används i den så kallade "Lipinski's Rule of Five" (Ro5), en uppsättning kriterier som används för att snabbt bedöma en förenings "drug-likeness", det vill säga dess potentiella förmåga att bli ett fungerande läkemedel vid oral administrering.

Lipinski's Rule of Five, som introducerades för att ge en initial uppskattning av en förenings bioavailability (dvs. hur väl läkemedlet tas upp och når blodomloppet), specificerar att en molekyl bör uppfylla följande kriterier för att ha en bra chans att tas upp vid oral administrering: molekylvikten bör vara mindre än 500 dalton, logP bör vara mindre än 5, antalet vätebindningsdonatorer bör vara högst 5, och antalet vätebindningsacceptorer bör vara högst 10. Dessa kriterier syftar till att balansera molekylens polaritet och lipofilicitet, vilket är avgörande för att den ska kunna lösa sig i vattenlösliga kroppsvätskor och samtidigt passera fettlösliga membran.

Vidare kan substrukturfilter användas för att identifiera och eliminera föreningar som innehåller oönskade strukturella enheter eller grupper som inte passar in i de kemiska ramarna för ett lyckat läkemedel. Detta innebär att vi använder kännedom om specifika funktionella grupper eller kemiska strukturer som vi vet är associerade med biverkningar eller instabilitet. Exempelvis kan föreningar som innehåller tungmetaller eller ovanliga bindningar ibland orsaka toxicitet eller andra problem i utvecklingsfasen.

Förutom de molekylbeskrivare och filter som anvä