Molekylär likhet är ett fundamentalt verktyg inom kemoinformatik och läkemedelsforskning. För att bedöma om två molekyler är lika varandra, mäts deras närhet i ett så kallat "fingeravtrycksområde" (fingerprint feature space). Om två molekyler är nära varandra i detta utrymme, innebär det att de delar flera egenskaper, medan om de är längre ifrån varandra, så innebär det att de skiljer sig mer åt i sina struktur och funktion. Ett vanligt tillämpningsområde för likhetssökningar är att identifiera molekyler som kan ge terapeutiska effekter liknande de av redan kända aktiva föreningar.

För att kvantifiera denna likhet används olika koefficienter. Tanimoto-likhet och Dice-likhet är två av de mest använda måtten. Tanimoto-likhet (ibland kallad Jaccard-likhet) beräknas som kvoten mellan storleken på skärningen av två uppsättningar och storleken på deras förening. I fallet med binära vektorer, som ofta används för molekylära fingeravtryck, definieras Tanimoto-likhet som antalet gemensamma icke-noll element dividerat med det totala antalet icke-noll element i båda vektorerna. Dice-likhet, å andra sidan, beräknas som dubbelt så stor som storleken på skärningen dividerad med summan av storlekarna på de individuella uppsättningarna. För binära vektorer innebär detta att Dice-likhet mäter proportionen av gemensamma icke-noll element i relation till det totala antalet icke-noll element över båda vektorerna.

Både Tanimoto- och Dice-likhet har ett värdeintervall från 0 till 1, där 0 innebär ingen likhet och 1 innebär fullständig likhet mellan uppsättningarna eller vektorerna som jämförs. Det är viktigt att notera att ett resultat på 1 inte innebär att molekylerna är identiska. Det innebär bara att deras strukturer är fullständigt lika, men inte nödvändigtvis att de har exakt samma biologiska aktivitet.

En viktig skillnad mellan de två koefficienterna är att Dice-likhet tenderar att ge högre värden än Tanimoto-likhet för samma molekylpar. Detta beror på att Tanimoto-likhet straffar skillnader mellan molekyler starkare, vilket gör den mer konservativ när det gäller att bedöma molekylär likhet. Därför är Tanimoto-likhet att föredra när man letar efter nära analoger till aktiva föreningar, eftersom det hjälper till att fokusera på strukturer som är mer liknande varandra.

Vid genomförande av en likhetssökning mot en databas med molekyler (t.ex. en samling läkemedelsföreningar som Malaria Box) är det viktigt att förstå hur Tanimoto och Dice fungerar i praktiken. Genom att jämföra likheten mellan en förfrågan (query) och alla molekyler i en samling, kan man identifiera de mest lika föreningarna. Ett exempel på detta visas där de tre mest lika molekylerna jämförs med de tre minst lika molekylerna. Här kan man tydligt se skillnader i strukturerna mellan de mest lika och de minst lika molekylerna, vilket illustrerar hur olika likhetsmått kan påverka resultaten.

Vid valet av ett lämpligt tröskelvärde för likhet (t.ex. 0,65) kan resultaten variera beroende på vilket mått som används. Om Dice-likhet används för att söka efter liknande molekyler, kommer fler molekyler troligen att passera tröskeln än om Tanimoto-likhet används, eftersom Dice tenderar att ge högre likhetspoäng.

Förutom valet av likhetsmått, är valet av de descriptorer eller egenskaper som används för att representera varje molekyl också av stor betydelse. Dessa faktorer kan påverka hur strikt eller generöst likhetssökningen är, och kan leda till att antingen för få eller för många molekyler återfinns. Om likhetssökningen är för strikt kan den missa potentiella kandidater som ändå har biologisk relevans, medan en för lös sökning kan ge alltför många falska träffar. Ett vanligt riktmärke är att en Tanimoto-likhet på 0,85 innebär att molekylerna förmodligen har samma biologiska aktivitet, men beroende på sammanhanget kan tröskelvärdena vara lägre eller högre.

Vid en likhetssökning är det också viktigt att förstå att resultaten inte bara beror på de valda måtten utan även på de specifika molekyler som används som referens. En molekyl som är känd för att vara biologiskt aktiv mot ett specifikt mål kan hjälpa till att snabbt identifiera andra molekyler med liknande aktivitet. I vårt exempel, där vi använder en känd molekyl från Malaria Box som referens, kan en snabb likhetssökning hjälpa till att identifiera andra molekyler med potentiellt liknande antimalariell aktivitet.

För att effektivisera denna process och hantera stora datamängder, kan man använda algoritmer som sorterar molekyler baserat på deras likhetspoäng, och därmed extrahera de mest lovande kandidaterna för vidare testning. Detta görs ofta genom att sätta upp en budget för hur många molekyler som kan screenas i nästa steg, till exempel 1000 molekyler.

Vid tolkningen av resultaten är det också viktigt att förstå att en hög likhet inte nödvändigtvis innebär att molekylerna kommer att ha exakt samma biologiska effekt. Därför kan en noggrant utförd likhetssökning vara ett första steg i att hitta nya, potentiellt aktiva föreningar, men vidare experiment och tester är alltid nödvändiga för att bekräfta deras aktivitet och terapeutiska potential.

Hur vi använder molekylära descriptorer för att förutsäga bindningsbeteende: En inblick i experimentella metoder och maskininlärning

För att utveckla förutsägelser om molekylers bindningsaktivitet är det avgörande att använda rätt descriptorer. Dessa descriptorer, som kan vara tvådimensionella (2D) eller tredimensionella (3D), används för att beskriva molekylers struktur och interaktioner. 3D descriptorer är mer komplexa och ger en djupare förståelse för molekylens tredimensionella konformationer, men beräkningsbördan för dessa kan vara mycket hög. När man kör beräkningar för att generera och optimera konformerer för endast 20 molekyler kan det ta flera timmar för att bearbeta de omkring 1500 protomerer, där appliceringen av kraftfältet ofta är det mest tidskrävande steget. För att hantera denna beräkningsbelastning kan det vara fördelaktigt att först använda enklare 2D descriptorer, för att snabbt kunna utvärdera om de är tillräckliga för att uppnå önskade resultat. I många fall visar sig denna förenklade metod vara en bra startpunkt, även om det finns en tydlig prestandafördel för att använda 3D descriptorer när man söker mer precisa och komplexa prediktioner.

När vi nu har våra descriptorer, är nästa fråga: vad använder vi dem egentligen för att förutsäga? För att konkretisera detta, låt oss titta på ett experimentellt sätt att mäta bindningsegenskaper. En vanlig teknik som används för att studera interaktioner mellan molekyler är Surface Plasmon Resonance (SPR). I denna metod mäts tre bindningsparametrar hos små molekyler som binder till HIV-1 TAR, som är det biologiska målet. De tre parametrarna är: kon, koff och KD. Kon representerar associeringshastigheten, dvs. hur snabbt molekylen binder till sitt mål, medan koff mäter dissociationshastigheten, dvs. hur snabbt bindningen bryts. KD är bindningsaffiniteten, som uttrycks som förhållandet mellan koff och kon.

I SPR-tekniken appliceras en lösning som innehåller ligand över en yta där målet är immobiliserat. Genom att mäta förändringen i ljusreflektion på ytan kan vi härleda information om kon och koff. Genom att noggrant analysera dessa signaler kan vi skapa ett bindningsprofil som hjälper oss att förstå hur starkt liganden binder till sitt mål.

För att utvärdera hur bra en modell presterar behöver vi en uppsättning data som är representativ för det totala dataområdet, vilket innebär att både träningsdatan och testdatan måste spegla den variation som finns i de molekylära interaktionerna vi försöker modellera. Om vi inte säkerställer detta kan våra prediktioner bli missvisande och överanpassade till en viss typ av data, vilket gör att modellen inte generaliserar bra till nya molekyler.

Det finns också andra viktiga överväganden i samband med datahantering och maskininlärning. Ett exempel på detta är dimensionalitetsreduktion, en teknik som används för att minska mängden variabler i en datamängd samtidigt som de mest signifikanta egenskaperna bevaras. Detta gör att vi kan hantera och visualisera komplexa datamängder på ett effektivare sätt, och hjälpa till att eliminera överflödig eller störande information.

Vidare kan tekniker som klustring och densitetsestimering hjälpa oss att identifiera mönster och strukturer i datan utan att behöva använda etiketterna, vilket gör dessa metoder till viktiga verktyg i den oövervakade inlärningens arsenal. Klustring gör det möjligt att gruppera data i liknande kategorier baserat på gemensamma egenskaper, medan densitetsestimering hjälper till att identifiera anomalier eller avvikande data, vilket kan vara användbart för att hitta nya eller ovanliga molekyler som kan ha potentiell biologisk aktivitet.

I många praktiska tillämpningar, som läkemedelsomdesign och omrepurposing, kan dessa tekniker vara avgörande. Till exempel kan klustring användas för att skapa diversifierade bibliotek av föreningar som kan screenas för att hitta lovande kandidater för nya läkemedel. Genom att förstå och tillämpa dessa metoder kan vi snabbt och effektivt bearbeta stora mängder molekylära data och identifiera de mest lovande kandidatmolekylerna för vidare studier.

För att uppnå detta krävs emellertid mer än bara teknisk kompetens i maskininlärning. Det handlar också om att förstå de biologiska och kemiska processerna som styr molekylinteraktioner och att kunna tolka resultaten på ett meningsfullt sätt. Det är också viktigt att vara medveten om de potentiella fallgroparna i dataanalys, som överanpassning eller bristande representativitet i träningsdatan, och att använda en noggrant genomtänkt strategi för att säkerställa att de resultat som vi får är både tillförlitliga och användbara för praktiska tillämpningar.

Hur kan molekyler representeras och analyseras med maskininlärning inom läkemedelsforskning?

Skillnader mellan in vitro och in vivo tester är avgörande för att förstå hur olika experimentella miljöer kan påverka resultaten. In vitro innebär experiment som utförs utanför en levande organism, i en kontrollerad miljö, till exempel i provrör eller cellkulturer. In vivo å andra sidan, innebär experiment som utförs inom levande organismer, där komplexa biologiska interaktioner kan förekomma. Dessa olika testmiljöer kan ge olika resultat, vilket gör att in vitro- och in vivo-experiment inte alltid är direkt jämförbara.

Inom maskininlärning kan vi dela upp scenarierna i två grundläggande ramverk: övervakad inlärning och oövervakad inlärning. Övervakad inlärning kräver att varje datainstans är märkt. Ett exempel på en klassificeringsuppgift kan vara att identifiera om en molekyl är giftig eller inte. I detta fall används en uppsättning av egenskaper som beskriver molekylens struktur, som molekylvikt, bindningstyper eller antalet atomer av olika slag, för att bygga en prediktiv modell. Målet är att lära sig att klassificera nya molekyler baserat på de exempel vi tränar modellen på.

Regression är en annan typ av övervakad inlärning där målet är att förutsäga en kontinuerlig numerisk mängd, till exempel lösligheten hos en molekyl. I sådana fall är varje molekyl inte märkt med en kategori som "giftig" eller "inte giftig", utan snarare med ett numeriskt värde som kan användas för att förutsäga egenskaper hos nya molekyler.

I oövervakad inlärning har vi ingen märkning på data, och istället används modeller för att hitta strukturer eller mönster i datan. En vanlig teknik är klustring, där modellen delar upp data i olika grupper eller kluster, baserat på likheter mellan de olika datainstanserna. Representationinlärning är en annan metod där man strävar efter att extrahera de mest relevanta egenskaperna från data och eliminera den information som är störande eller irrelevant. Det handlar om att identifiera vad som är viktig signal och vad som bara tillför brus.

Kompression och generativ modellering är relaterade till representationinlärning. Vid kompression reduceras datans dimensioner för att underlätta hantering och analys, samtidigt som viktig information bevaras. Generativ modellering handlar om att lära sig den underliggande sannolikhetsfördelningen för data och använda den för att generera nya data, vilket är användbart när man vill skapa nya molekyler baserat på en uppsättning av befintliga strukturer.

För att kunna tillämpa dessa tekniker i läkemedelsforskning måste vi förstå molekylers grundläggande struktur och hur de kan representeras för datorer. En av de vanligaste metoderna för att representera en molekyl är genom SMILES (Simplified Molecular Input Line Entry System). SMILES är en typ av textnotation som beskriver molekylens struktur genom att använda en uppsättning symboler för atomer och bindningar. Dessa representationer gör det möjligt för kemister att intuitivt förstå en molekyls struktur utan att behöva rita den för hand. SMILES är förenklade nog för att kunna användas effektivt, men ändå tillräckligt exakta för att beskriva molekylens egenskaper.

I SMILES-systemet används bokstäver för att representera atomslag, till exempel C för kol, O för syre och N för kväve. Bindningar mellan atomer representeras genom symbolerna "-", "=", "#" och ":" för enkel-, dubbel-, trippel- och aromatiska bindningar. Det finns även en version av SMILES som kallas "Canonical SMILES", som alltid ger en unik och standardiserad representation av en molekyls struktur. Detta gör att kemiskt lika strukturer alltid kommer att representeras av samma SMILES-sträng, vilket möjliggör konsekvent jämförelse av molekyler.

För att skapa en användbar modell inom läkemedelsforskning är det inte bara viktigt att kunna representera molekyler korrekt, utan också att kunna extrahera användbar information från dessa representationer. Genom att använda tekniker som övervakad och oövervakad inlärning kan vi upptäcka nya mönster i molekylära data och potentiellt förutsäga vilka molekyler som kan vara effektiva läkemedel. För att göra detta krävs en djup förståelse av både de matematiska modellerna och de biologiska systemen vi försöker simulera.

Att arbeta med molekylära representationer som SMILES kräver också en förståelse för hur dessa strukturer relaterar till molekylens fysiska och kemiska egenskaper. Förutom att ha en grundläggande förståelse för SMILES och de olika typer av bindningar, är det viktigt att känna till hur dessa bindningar påverkar molekylens funktion. Dessutom måste man beakta att medan SMILES är en kraftfull representation, finns det också andra metoder för att beskriva molekylens struktur, som kan vara mer eller mindre lämpliga beroende på kontexten.