Virtuell screening är en kraftfull metod som gör det möjligt att identifiera potentiella bioaktiva föreningar genom att jämföra deras strukturer eller egenskaper med redan kända aktiva föreningar. Genom att använda denna teknik kan vi snabbt filtrera och välja föreningar som har högre sannolikhet att vara biologiskt aktiva. Denna process baseras på antagandet att föreningar med liknande strukturer eller egenskaper till en känd aktiv förening har en större chans att också vara aktiva.

En vanlig metod inom detta område är likhetsbaserad sökning. I en sådan sökning jämför man den aktiva föreningen med en databas av andra föreningar för att identifiera de som är strukturellt lika. Om vi har flera kända aktiva föreningar kan vi även använda en ligand-baserad farmakofor-sökning. Denna metod bygger på att vi genererar möjliga 3D-konfigurationer av de aktiva föreningarna och försöker hitta gemensamma strukturella egenskaper som delas mellan de olika föreningarna. Dessa gemensamma funktioner kan sedan användas för att identifiera nya föreningar som har liknande strukturella drag.

När vi har både kända aktiva och inaktiva föreningar, kan maskininlärning användas för att vidareutveckla metoder för att förutsäga en förenings aktivitet. Målet med maskininlärning är att bygga en modell som kan identifiera samband mellan de strukturella egenskaperna hos föreningarna i vårt dataset och deras aktivitet. En sådan modell kan sedan användas för att förutsäga om nya föreningar har en hög sannolikhet att vara aktiva, även om de inte ingår i träningsdatan. Enligt denna metod förutspår vi aktiviteten genom att använda kvantitativa strukturella aktivitetsförhållanden (QSAR) eller kvantitativa strukturegenskapsförhållanden (QSPR), där QSAR är en mer specifik term för att beskriva relationen mellan struktur och biologisk aktivitet.

Det är viktigt att notera att när vi talar om likhet mellan föreningar, är frågan om hur vi definierar strukturell likhet avgörande. Detta är en central aspekt som vi kommer att undersöka mer i detalj längre fram. Vid användning av maskininlärning i ligandsökning behöver vi exempel på både aktiva och inaktiva föreningar. Om vi endast har aktiva föreningar tillgängliga, är sökstrategier baserade på likhet mer användbara.

En vanlig metod inom virtuell screening är hierarkisk screening, där flera olika sökmetoder används i sekvens, där varje steg tar bort föreningar som inte är av intresse. Första steget kan innebära att man använder filterbaserade metoder för att snabbt utesluta föreningar som är olämpliga, som de som saknar de egenskaper som krävs för att en förening ska kunna bli ett läkemedel, t.ex. de som har för stor eller för liten molekylstorlek, eller för låg löslighet. Därefter kan man använda mer avancerade metoder för att undersöka de kvarvarande föreningarna, som protein-ligand docking eller molekylär dynamik, för att ytterligare förfina de möjliga kandidaterna.

Förutom att undersöka föreningarnas biologiska aktivitet kan metoder för virtuell screening också användas för att förutsäga andra viktiga egenskaper, som ADMET (absorption, distribution, metabolism, exkretion, och toxicitet). Detta innebär att vi kan identifiera föreningar som, även om de är biologiskt aktiva, inte skulle vara användbara som läkemedel på grund av andra negativa egenskaper, som hög toxicitet. Sådana filter kallas ofta för "läkemedels-liknande" filter och hjälper till att identifiera föreningar som har de nödvändiga egenskaperna för att kunna utvecklas till ett läkemedel, t.ex. tillräcklig storlek, löslighet och permeabilitet för att kunna tas oralt.

Dessa filter är dock inte absoluta regler, utan snarare riktlinjer som kan hjälpa till att snabbt sortera bort de mest olämpliga kandidaterna. Det är också vanligt att använda flera olika filter i kombination, beroende på vilken typ av föreningar vi letar efter och vilka resurser vi har tillgång till. För att optimera resultatet av virtuell screening kan vi därför använda en mer liberal eller konservativ strategi beroende på vilka resurser som finns tillgängliga. Om vi har experter på medicinsk kemi kan vi använda en mer konservativ strategi, där lovande föreningar räddas efter att de har genomgått ett strikt filtreringssteg.

En praktisk tillämpning av dessa metoder kan ses i sökandet efter antimalariamedel. Malaria är en livshotande sjukdom som orsakas av Plasmodium falciparum, en parasit som sprids via myggor och som drabbar miljontals människor årligen, särskilt i tropiska och subtropiska regioner. Forskning för att hitta nya antimalariamedel fokuserar ofta på att identifiera proteiner inom P. falciparum som är viktiga för parasitens överlevnad och förmåga att infektera värdceller. Ett av de största hoten mot effektiv behandling är parasitens förmåga att utveckla resistens mot läkemedel. Därför är det viktigt att kontinuerligt identifiera nya potentiella läkemedelskandidater.

I vårt exempel skulle vi genomföra en virtuell screening av mer än 212 000 små molekyler, där vi börjar med att utesluta de föreningar som inte har de önskade läkemedelsliknande egenskaperna. Vi skulle även använda kända aktiva föreningar mot P. falciparum, exempelvis de som finns i den så kallade Malaria Box, för att genomföra en likhetsbaserad sökning och hitta nya lovande kandidater. Därefter skulle dessa föreningar genomgå ytterligare tester för att identifiera de som har den största potentialen att bli effektiva antimalariamedel.

Det är dock viktigt att förstå att även om virtuella screeningsmetoder ger oss ett effektivt sätt att snabbt identifiera potentiella föreningar, är de inte en garanti för framgång. Dessa metoder bör ses som en första selektion och behöver följas upp med experimentella tester för att bekräfta de förutsagda resultaten. För att verkligen kunna utveckla ett läkemedel krävs ofta många ytterligare tester och optimeringar, och även när vi hittar en lovande förening är det inte säkert att den kommer att bli framgångsrik i kliniska studier.

Hur artificiell intelligens påverkar läkemedelsutveckling: En ny era för läkemedelsforskning

Inflationsjusterade kostnader för forskning och utveckling (FoU) inom läkemedelsutveckling har visat på en oroväckande trend: dessa kostnader fördubblas ungefär var nionde år. Denna observation, känd som Eroom’s Law, reflekterar de minskande avkastningarna vid utvecklingen av nya läkemedel. Bland de faktorer som spelar in i denna utveckling återfinns bland annat en lägre riskbenägenhet hos regulatoriska myndigheter (den så kallade “försiktige regulatorn”), en tendens att satsa stora resurser på ett ämne utan garanti för framgång, samt ett behov av att visa på mer än en blyertsstor förbättring jämfört med redan framgångsrika läkemedel (den “bättre än Beatles”-problematiken).

Vid sidan om dessa hinder är de strukturella utmaningarna också påtagliga. Kemiska ämnens diversitet är oerhört stor, vilket innebär att det ibland inte är helt negativt att förlita sig på några få pålitliga strukturer. En sådan struktur är exempelvis de så kallade privilegierade strukturerna, som regelbundet återfinns i aktiva molekyler och har en förmåga att binda till flera olika proteintarget. Ett klassiskt exempel på detta är bensodiazepinkärnan, som återfinns i läkemedel som diazepam (Valium) och alprazolam (Xanax). Dessa läkemedel binder till GABA-receptorer, vilka är de främsta inhibitoriska neurotransmittorreceptorerna i hjärnan och minskar nervcellernas excitabilitet. Men även om bensodiazepiner främst är kända för sin aktivitet på GABA-receptorer, har de också visat aktivitet på helt olika mål, inklusive CCK-receptorer, HIV-1 omvänt transkriptas och GPCR-receptorer (G-protein-kopplade receptorer). Detta fenomen gör att föreningar med privilegierade strukturer ofta beskrivs som "promiskuösa", eftersom de binder till flera mål och därmed kan orsaka biverkningar.

En annan nackdel med föreningar som innehåller privilegierade strukturer är att de är svårare att patentera, vilket delvis beror på att dessa strukturer har undersökts omfattande och det redan finns många patenterade läkemedel med liknande strukturer. Det finns ett ekonomiskt incitament för företag att utveckla nya läkemedel som är unika, eftersom dessa kan få ett patent och vara konkurrensfria på marknaden. Trots detta är det också så att nya läkemedel har en lägre chans att få godkännande från FDA (U.S. Food and Drug Administration), vilket innebär att läkemedelsföretag måste navigera en komplex godkännandeprocess.

I detta sammanhang är den amerikanska FDA:s roll avgörande för läkemedelsutvecklingen. Myndigheten ansvarar för att säkerställa livsmedel, kosttillskott och läkemedels säkerhet och effektivitet. Utan FDA-godkännande kan inget läkemedel lagligt marknadsföras eller säljas i USA. Därför är ett läkemedels godkännande från FDA en enorm prestation, och att förstå den regulatoriska processen är avgörande för alla aktörer inom läkemedelsbranschen.

För att konkretisera hur dessa processer fungerar kan vi titta på antibiotikaforskning. Penicillin, det första antibiotikumet, upptäcktes 1928 och bidrog till att dramatiskt minska dödligheten från infektioner. Men sedan 1990-talet har upptäckten av nya antibiotika avtagit, vilket är ett allvarligt problem med tanke på den ökande antibiotikaresistensen. Här spelar AI-baserade metoder en central roll genom att möjliggöra utveckling av nya antibiotikaklasser. Forskare som Stokes et al. har till exempel utvecklat en metod för att använda djupinlärning för att hitta antibiotika och har identifierat Halicin, en tidigare känd förening, som en lovande kandidat.

AI:s fördelar inom läkemedelsutveckling är tydliga, särskilt när det gäller att upptäcka mönster i molekyler och läkemedelsstrukturer. Traditionella metoder för både virtuell screening och de novo-design bygger på fasta, handgjorda kemiska egenskaper, men dessa metoder är begränsade till det vi redan känner till om ämnens egenskaper. I kontrast kan AI identifiera nya, okända egenskaper genom att lära sig optimala, uppgiftsspecifika funktioner. Detta gör att modellen kan utföra en mer effektiv och mindre biased sökning, vilket innebär att den kan hitta läkemedelskandidater som annars skulle vara svåra att upptäcka.

En annan viktig aspekt är de så kallade de novo-designmetoderna. Genom att arbeta med kända informationer om en förenings struktur eller målstruktur, kan man generera helt nya och potentiellt effektiva läkemedelskandidater. Här är virtuell screening en användbar metod, och beroende på om vi känner till ligandens struktur eller målstrukturen, kan vi använda olika designmetoder för att hitta den bästa kandidaten.

Trots framstegen i datorstödd läkemedelsdesign kvarstår en stor utmaning: att syntetisera de nya föreningarna. Denna process, som omfattar att omvandla enkla kemiska reaktanter till en mer komplex produkt, är ofta en trial-and-error-process. Retrosyntes, som arbetar baklänges från det kända målet till enkla reaktanter, erbjuder en metod för att hitta mer effektiva syntesvägar. Dock är retrosyntes inte utan sina egna problem, då den kemiska sökrymden är så stor att det kan vara svårt att hitta en praktisk och skalbar syntesväg.

Det är därför av största vikt att förstå hur AI kan utnyttjas för att inte bara optimera läkemedelskandidater utan även att förenkla och effektivisera syntesprocessen. AI-baserade metoder som dessa kan dramatiskt minska tiden och kostnaden för läkemedelsutveckling och hjälpa till att hantera den ökande komplexiteten i moderna läkemedelsmål.

Hur fungerar kalibrering av modeller och vilka metoder är mest effektiva för att förbättra förutsägelser?

När man tränar en logistisk regressionsmodell, är det vanligt att använda olika kalibreringsmetoder för att förbättra modellens sannolikhetsbedömningar. Dessa metoder omvandlar de råa sannolikhetsvärdena, som modellen producerar, till mer pålitliga uppskattningar av verkliga sannolikheter. En av de mest använda metoderna är Platt-skala, där en logistisk regression appliceras på de ursprungliga modellpoängen för att få en kalibrerad sannolikhet. En annan populär metod är isotonic regression, en icke-parametrisk teknik som inte förutsätter någon specifik funktionell form, till skillnad från Platt-skala som antar en sigmoidal (S-formad) kurva för målfunktionen.

Isotonic regression anpassar sig till data genom att skapa en monoton, styckvis konstant funktion som passar de ursprungliga poängen från modellen. Eftersom denna metod är mer flexibel än Platt-skala, gör den det möjligt att få bättre resultat när data har en mer komplex struktur. Samtidigt innebär denna flexibilitet att isotonic regression är mer känslig för uteliggare och har en större risk för att överanpassa modellen till de specifika data som den tränas på. Det är därför viktigt att vara medveten om denna balans mellan flexibilitet och överanpassning när man väljer kalibreringsmetod.

I praktiken kan båda metoderna användas inom en rad olika tillämpningar där kalibrering är viktig för att förbättra modellens prestanda. I exempelvis bioinformatik och andra vetenskapliga områden där man arbetar med förutsägelser om biologiska eller kemiska processer, är det avgörande att kunna kalibrera modellen för att ge meningsfulla sannolikheter. Det finns dock inga universella regler för vilken kalibreringsmetod som är bäst, och valet mellan Platt-skala och isotonic regression beror mycket på den specifika data och det problem man försöker lösa.

Ett exempel på kod som visar hur man använder både Platt-skala och isotonic regression för kalibrering kan vara följande:

python
from sklearn.calibration import CalibratedClassifierCV from utils import reliability_diagram lr_ps_cal = CalibratedClassifierCV(estimator=lr_model, method='sigmoid', cv='prefit') lr_ps_cal.fit(val_fingerprints, val_df.Inhibitor) val_proba_inhibitor_ps_cal = lr_ps_cal.predict_proba(val_fingerprints)[:, 1] lr_ir_cal = CalibratedClassifierCV(estimator=lr_model, method='isotonic', cv='prefit') lr_ir_cal.fit(val_fingerprints, val_df.Inhibitor) val_proba_inhibitor_ir_cal = lr_ir_cal.predict_proba(val_fingerprints)[:, 1] # Plotta reliabilitetsdiagram ax, ax1 = reliability_diagram(val_proba_inhibitor_ps_cal, val_df.Inhibitor, nbins=10) ax, ax1 = reliability_diagram(val_proba_inhibitor_ir_cal, val_df.Inhibitor, nbins=10)

Detta kodstycke visar hur man kan tillämpa både Platt-skala och isotonic regression för att kalibrera en logistisk regressionsmodell. Genom att använda CalibratedClassifierCV från sklearn kan man enkelt experimentera med olika kalibreringsmetoder och analysera resultaten med hjälp av diagram som visualiserar pålitligheten i modellens förutsägelser.

När modellen har genomgått kalibrering är det viktigt att också överväga hur den fungerar vid olika tröskelvärden, eller beslutströsklar, för att binära klassificeringar ska göras. I vår logistiska regressionsmodell definierades en tröskel på 0,5 för att omvandla sannolikhetsbedömningarna till positiva eller negativa klasser. Emellertid kan ett lägre eller högre tröskelvärde ge olika resultat i termer av precision och återkallande (recall). Ju lägre tröskel, desto fler positiva exempel kan fångas, men det innebär också en ökning av falska positiva.

För att kunna bedöma modellens prestanda över ett intervall av tröskelvärden och välja ett optimalt tröskelvärde, kan precision-recall (PR) kurvor och receiver operating characteristic (ROC) kurvor användas. PR-kurvor visualiserar hur modellens precision och återkallande förändras när tröskelvärdet justeras. På samma sätt hjälper ROC-kurvor oss att förstå balansen mellan känslighet och specificitet, vilket kan vara användbart för att förstå hur bra modellen är på att rangordna instanser korrekt.

För att optimera beslutströskeln kan man till exempel använda Youden’s Index, som maximalt balanserar både känslighet och specificitet. Genom att tillämpa detta index kan man beräkna det optimala tröskelvärdet för att binarisera modellens sannolikhetsbedömningar till förutsagda klasser.

När vi tolkar viktarna i en logistisk regressionsmodell är det också viktigt att notera att förändringar i värdena på en given funktion direkt påverkar den predicerade sannolikheten, men att detta inte alltid ger en direkt eller linjär relation mellan funktionerna och målfunktionen. En djupare förståelse för hur varje variabel påverkar resultatet kan ge mer insikt i modellens beteende, vilket kan vara användbart för att identifiera möjliga förbättringsområden.

Hur påverkar triangulär ojämlikhet och energiminimering konformationer i molekyler?

Triangulär ojämlikhet är en grundläggande princip inom geometri som används för att säkerställa att avståndet mellan atomer i en molekyl är korrekt definierat i relation till varandra. När man genererar konformationer för en molekyl är det nödvändigt att dessa avstånd mellan atompar måste uppfylla den triangulära ojämlikheten, vilket innebär att summan av längderna på två sidor i en triangel alltid måste vara större än längden på den tredje sidan. För att säkerställa detta tillämpas en algoritm för triangulär ojämlikhet som justerar avståndsgränserna för atompar, vilket leder till att molekylerna får en mer realistisk och korrekt geometri.

För att skapa olika konformationer av en molekyl genereras en slumpmässig distansmatris som uppfyller de geometriska restriktionerna. Detta leder till att olika distansmatriser representerar olika konformationer, som sedan omvandlas till 3D-koordinater för varje atom. Den resulterande 3D-geometrin av en konformer är dock sällan perfekt, och bindningslängder samt torsionsvinklar kan avvika från optimala värden. Detta kan resultera i steriska krockar eller strukturer med förhöjd spänning.

För att förbättra denna geometri genomgår molekylen en så kallad "rengöring", där 3D-geometrin optimeras med hjälp av ett kraftfält. Ett kraftfält är ett matematiskt system av funktioner och parametrar som beskriver interaktioner mellan atomer i en molekyl. RDKit, ett populärt bibliotek för molekylär modellering, använde tidigare ett avståndsgeometri-kraftfält som enbart baserades på avståndsbegränsningar definierade i distansmatrisen. Emellertid visade det sig att bättre resultat uppnåddes genom att använda ETKDG (Experimental Torsion and Knowledge-based Distance Geometry) kraftfältet, vilket tar hänsyn till experimentella torsioner och strukturella kunskaper om aromatiska ringar och linjära trippelbindningar. Detta förbättrade den övergripande kvalitén på konformationerna och gjorde det möjligt att använda dem utan ytterligare energioptimering.

En ytterligare nivå av optimering sker genom att använda Universal Force Field (UFF) för att ytterligare justera konformationernas geometri, vilket bidrar till att minska energinivåerna och därmed förbättra stabiliteten i molekylen. Vid konformationell analys är det viktigt att välja konformationer som har den lägsta energin eller som ligger inom ett specificerat energimarginal, till exempel inom 3 kcal/mol från den lägsta energi-konformationen.

Vidare är det också relevant att förstå konceptet "högenergi-konformationer". En molekyl som är sträckt och har onormalt hög potentiell energi kan vara instabil och svår att arbeta med i simuleringar och experiment. Spänning i en molekyl kan uppstå från steriska konflikter, där atomer kommer för nära varandra och leder till ogynnsamma interaktioner. En annan källa till spänning kan vara vinkelfel, där bindningsvinklarna avviker från deras optimala värden. Torsionsspänning uppstår när rotationer kring bindningar hindras, vilket gör att molekylen antar en mindre fördelaktig konformation.

För att hantera dessa problem och effektivt beräkna molekylens egenskaper beräknas deskriptormatriser för varje protomer och deras konformationer. Den slutliga deskriptormatriserna för en ligand beräknas genom att aggreggera deskriptorerna för alla protomerer och deras konformationer med hjälp av Boltzmann-viktad genomsnittsberäkning. Detta innebär att konformationer som har lägre energi får större vikt i det slutliga deskriptornätverket. Denna metod, även om den är resurskrävande, ger en mer exakt representation av molekylens egenskaper och underlättar jämförelser mellan olika molekyler.

Boltzmann-viktad genomsnittsberäkning gör det möjligt att skapa en representativ descriptorvektor för varje ligand, där varje konformations energinivå beaktas. Detta gör det möjligt att korrekt representera molekylens variation i dess 3D-struktur, vilket är avgörande för beräkningar av molekylära egenskaper som interaktioner med andra molekyler, stabilitet och biologisk aktivitet. Samtidigt är det viktigt att inte överväga 2D-deskriptorer för varje konformation, eftersom de förblir desamma för en ligand och bara behöver beräknas en gång per ligand.

Att förstå denna process är avgörande för alla som arbetar med molekylär modellering och strukturell kemi. Att korrekt generera och optimera konformationer, samt att hantera de olika energinivåerna och geometriska spänningarna, är fundamentalt för att skapa stabila och realistiska modeller av molekyler. Det är också viktigt att beakta de olika typerna av spänning som kan påverka molekylens struktur och hur dessa påverkar dess biologiska aktivitet och stabilitet.

Hur Autoencoders Kan Användas för Effektiv Optimering inom Molekylär Design

En effektiv optimering kräver en karta av det sökbara utrymmet, där varje liten rörelse leder till en bättre lösning. För att förtydliga detta kan vi tänka oss att stå vid Eiffeltornet i Paris. Om vi tar ett steg åt öster, bör vi fortfarande vara i Paris och inte plötsligt befinna oss mitt ute på havet. För vår förstärkningsinlärningsagent innebär det att den måste ta små steg för att hitta molekyler med bättre egenskaper. Om kartan är jämn kan agenten lära sig att rörelse i en viss riktning på ett tillförlitligt sätt förbättrar en egenskap. Men om kartan är hackig och kaotisk, kan ett litet steg resultera i en helt annan molekyl med oförutsägbara egenskaper, vilket gör optimeringen till ett slags slumpmässigt gissande.

För att övervinna denna utmaning behöver vi skapa vår egen karta. En central komponent i detta är autoencodern, en typ av neuralt nätverk som är utformad för att skapa den typ av kartografi som krävs i molekylär design.

Autoencodern: Lärande Att Komprimera och Återskapa

En autoencoder är ett neuralt nätverk som tränas för att genomföra en enkel uppgift: att rekonstruera sin egen inmatning. Den gör detta genom en tvådelad arkitektur:

  1. Encoder: Denna del av nätverket tar den högdimensionella inmatningen (t.ex. en bild eller en molekyls representation) och komprimerar den till ett kort, tätt koordinatsystem. Denna komprimerade, lågdimentionella representation kallas den latenta vektorn.

  2. Decoder: Denna del tar den latenta vektorn och försöker återskapa den ursprungliga inmatningen så exakt som möjligt.

Autoencodern tränas genom att minimera rekonstruktionsfelet, som är skillnaden mellan den ursprungliga inmatningen och den återskapade utmatningen. Nyckeln ligger i den "informationsflaskhals" som skapas av det lågdimentionella latenta rummet – något som är designat för att tvinga nätverket att inte bara memorera inmatningen, utan att lära sig de mest fundamentala och viktiga egenskaperna för att packa dessa effektivt i det begränsade utrymmet.

För att förstå detta bättre kan man tänka sig att komprimera en lång bok till en kort sammanfattning, samtidigt som man behåller alla viktiga plotpunkter. En encoder måste lära sig att fånga de mest framträdande och viktiga funktionerna av data och packa dem på ett sätt som gör att decoder kan rekonstruera den ursprungliga inmatningen korrekt.

Tokenisering av Molekylär Information

För att autoencodern ska kunna bearbeta molekylär data, som SMILES-strängar, måste dessa omvandlas till ett numeriskt format. Eftersom neurala nätverk opererar på siffror och inte på text, måste vi använda en teknik som kallas tokenisering för att konvertera textsträngar till en sekvens av mindre enheter.

I vårt fall innebär detta att varje individuellt tecken i en SMILES-sträng blir en token. För att uppnå detta måste vi skapa ett lexikon, en uppsättning regler som mappar varje möjligt tecken till ett unikt heltal. Denna process gör att nätverket kan behandla SMILES-strängar som numeriska sekvenser snarare än som text.

Under tokeniseringen förekommer ibland tecken som är fler än ett tecken långt, exempelvis "Cl" för klor eller "[nH]" för aromatiskt kväve. För att förenkla processen ersätter vi dessa med singeltecken som inte används någon annanstans i strängen. SMILES-strängarna får också fyra specialtoken: en för padding, en för början av sekvensen, en för slutet och en för okända tecken som kan dyka upp under testning men inte fanns med i träningsdatan.

Modellens Effektivitet och Processer

När tokeniseringen är klar måste nätverket tränas för att konvertera SMILES-strängar till token-sekvenser och vice versa. En modell som kan ta en SMILES-sträng, komprimera den till en latent vektor och sedan återskapa den ursprungliga strängen kommer att ge oss det verktyg som krävs för effektiv molekylär design. För att säkerställa att sekvenser av varierande längd kan bearbetas i batcher, används padding för att alla strängar ska ha samma längd.

Det är också viktigt att förstå att målet med denna metod inte är att bara skapa en lista med token-sekvenser. Det handlar om att lära sig de mest grundläggande och viktiga egenskaperna hos molekylerna, så att de bästa molekylära lösningarna kan hittas på ett effektivt sätt. För att detta ska vara möjligt krävs att modellen både kan fånga de essentiella egenskaperna hos molekylerna och även kunna generalisera till nya, tidigare osedda molekyler.

Ytterligare Viktig Information

För att effektivt kunna optimera molekylär design med hjälp av autoencoders är det också väsentligt att tänka på hur vi tränar nätverken. Förutom att ha en högkvalitativ datamängd behöver vi också noggrant överväga designen av nätverkets arkitektur, såväl som hur vi hanterar träningsparametrar som inlärningshastighet och batchstorlek. Dessutom bör vi inte förbise de fysiska och kemiska egenskaper som vi försöker optimera. Att förstå hur olika molekylära parametrar påverkar varandra och nätverkets inlärning kan vara avgörande för att uppnå långsiktiga framgångar i optimeringsprocessen.