Lääkeaineiden kehityksessä molekyylien ominaisuudet ja niiden rakenteelliset piirteet ovat ratkaisevassa asemassa, kun valitaan potentiaalisia lääkeaihioita. Lipinskin sääntö (Rule of Five, Ro5) asettaa neljä keskeistä kriteeriä, jotka molekyylin tulisi täyttää ollakseen todennäköisesti suun kautta otettavan lääkkeen kannalta optimaalinen. Näihin kuuluvat molekyylipaino alle 500 Daltonia, logP-arvon (hydrofobisuuden mitta) alle 5, enintään 10 vetysidoksen vastaanottajaa ja enintään 5 vetysidoksen luovuttajaa. Näiden raja-arvojen ylittäminen merkitsee usein liiallista vesihakuista ominaisuutta, mikä vaikeuttaa molekyylin läpäisyä solukalvon lipidikerrosten läpi. Tämä johtuu siitä, että lääkeaineen on siirryttävä vesipitoisesta ruoansulatusnesteestä solukalvon epäpolaariseen ympäristöön, mikä edellyttää vesikuoren hylkäämistä.

Kun suuri molekyylikirjasto suodatetaan Ro5-kriteerien avulla, havaitaan merkittäviä muutoksia molekyylien ominaisuuksien jakaumissa. Esimerkiksi molekyylipainon keskiarvo laskee, vetysidoksen vastaanottajien määrä vähenee ja logP-arvo pienenee, mikä osoittaa polaarisuuden vähentymistä. Tämä vaihe karsii pois merkittävän osan yhdisteistä, mutta parantaa kirjaston yhtenäisyyttä lääkeainemaisen profiilin osalta.

Lisäksi rakenteelliset suodattimet täydentävät tätä lähestymistapaa poistamalla yhdisteitä, jotka sisältävät haitallisia alirakenteita tai rakenteellisia merkkejä, jotka ovat yhteydessä toksisuuteen tai assay-virheisiin. Tunnettuja esimerkkejä ovat PAINS (Pan Assay Interference Compounds) -yhdistelmät, jotka aiheuttavat epäspesifisiä aktiivisuuksia eri kokeissa ja johtavat usein väärän positiivisiin tuloksiin. PAINS-suodattimet perustuvat rakenteisiin, jotka tunnetusti häiritsevät biologisia testejä tai sitoutuvat epäspesifisesti moniin kohteisiin. BRENK-suodattimet puolestaan on kehitetty poistamaan rakenteita, joilla on tunnistettu toksisuusriskejä erityisesti lääkekehityksessä, joka kohdistuu unohdettuihin sairauksiin.

Rakenteelliset hälytykset, kuten tiettyjen kemiallisten ryhmien esiintyminen, voivat viitata toksisuuteen, mutta niiden ennustava arvo on rajallinen. Esimerkiksi tietyt ryhmät voivat olla haitallisia yhdessä molekyylissä, mutta turvallisia toisessa, riippuen molekyylin kontekstista ja metaboliasta. Tämä rajoittaa pelkkien rakenteellisten hälytysten käyttöä toksisuuden määrittelyssä ilman laajempaa biokemiallista analyysia.

Nopean hylkäyksen periaate (REOS, Rapid Elimination of Swill) on strategia, jonka avulla seulotaan pois huonolaatuiset yhdisteet, jotka eivät ole lupaavia lääkeaihioita. Tämä parantaa seulontaprosessin tehokkuutta välttämällä ajan ja resurssien tuhlaamista yhdisteisiin, jotka todennäköisesti aiheuttavat assay-virheitä tai väärän positiivisia tuloksia. Vaikka REOS ei ole tarkasti määritelty sääntökokoelma, sen tavoitteet sisältyvät esimerkiksi PAINS-suodattimiin. Lisäksi on mahdollista määrittää omia alirakennesuodattimia SMARTS-kielen avulla, jolla voidaan tunnistaa tiettyjä rakenteellisia malleja molekyyleistä.

SMARTS-mallinnus tarjoaa tehokkaan tavan tunnistaa kemiallisia alirakenteita, joita pidetään epätoivottuina. Esimerkiksi Glaxo Wellcome -suodattimet sisältävät joukon SMARTS-kuvauksia, jotka kuvaavat kiellettyjä rakenteita, joiden esiintyminen saattaa aiheuttaa toksisuutta tai muita ongelmia lääkeaihioiden kehityksessä. Näiden suodattimien käyttö on erityisen hyödyllistä molekyylikirjastojen hallinnassa ja varhaisessa vaiheessa tapahtuvassa karsinnassa.

Lääkeaineseulonnassa onkin tärkeää ymmärtää, että sekä fysikaalis-kemialliset ominaisuudet että rakenteelliset piirteet vaikuttavat ratkaisevasti molekyylien kehityskelpoisuuteen. Pelkkä Lipinskin sääntö ei riitä, koska se ei ota huomioon rakenteellisia vaaroja tai assay-interferenssiä. Toisaalta rakenneperusteiset hälytykset eivät yksin pysty määrittelemään toksisuutta tai lääkkeen turvallisuutta, vaan ne on aina yhdistettävä laajempaan kontekstiin, kuten metaboliaan ja biologiseen aktiivisuuteen.

Tärkeää on myös huomata, että liiallinen polariteetti tai hydrofobisuus voi estää lääkkeen pääsyn kohdesoluihin, mutta samalla liian vähäinen vesiliukoisuus heikentää imeytymistä. Optimaalinen tasapaino molekyylin ominaisuuksissa on siten keskeinen tavoite lääkekehityksessä. Lisäksi molekyylien läpikäymät metaboliset reitit voivat muuttaa niiden toksisuusprofiilia merkittävästi, mikä korostaa tarvetta laajemmille, kontekstuaalisille malleille toksisuuden ennustamisessa.

Miten molekyylien rakenteelliset suodattimet ja sormenjäljet parantavat lääkekehityksen tehokkuutta?

Lääkekehityksessä yhdeksi keskeiseksi haasteeksi muodostuu sopivien yhdisteiden seulonta suurista molekyylikirjastoista. Käyttämällä rakenteellisia suodattimia, kuten Glaxo Wellcome -suodattimia, voidaan tehokkaasti poistaa pois sellaisia yhdisteitä, jotka sisältävät ei-toivottuja alirakenteita, jotka voivat esimerkiksi aiheuttaa haittavaikutuksia tai hankaloittaa jatkotutkimuksia. Esimerkkeinä tällaisista alirakenteista ovat esimerkiksi akyylihydrazidit, tiolit ja reaktiiviset alkyylikloridit, joita esiintyy monissa lääkeaineita hankaloittavissa yhdisteissä. Näin kirjaston koko pienenee nopeasti, mutta arvokkaita kandidaatteja ei menetetä, mikä vähentää huomattavasti jatkotutkimuksiin tarvittavaa laskennallista työtä ja parantaa koko prosessin tehokkuutta.

Suodattamisen jälkeen molekyylit esitetään numeerisesti käyttäen ns. molekyylisormenjälkiä. Tämä teknologia tiivistää molekyylin rakenteelliset ominaisuudet binääriseen vektoriin, jossa 1 ja 0 ilmaisevat tietyn rakenteellisen piirteen läsnäolon tai poissaolon. Tätä voidaan verrata kirjaston luokitteluun koodien avulla, mikä mahdollistaa nopeasti samankaltaisten molekyylien löytämisen ilman yksityiskohtaista manuaalista vertailua. Sormenjäljet ovat oleellinen työkalu virtuaalisessa seulonnassa ja samankaltaisuushauissa, joiden avulla tunnistetaan lupaavia yhdisteitä esimerkiksi malarian tai muiden tautien hoitoon.

Kaksi keskeistä sormenjälkijärjestelmää ovat rakenteelliset avaimet (structural keys) ja hash-pohjaiset sormenjäljet. Rakenteellisissa avaimissa sormenjäljen kukin bitti vastaa ennalta määriteltyä rakenteellista fragmenttia, kuten tiettyä funktionaalista ryhmää tai atomien yhdistelmää. Tämä vaatii huolellisesti laaditun fragmenttisanaston, ja jos jokin rakenne ei kuulu sanastoon, sitä ei voida tunnistaa, mikä rajoittaa mallin oppimiskykyä ja yleispätevyyttä. Esimerkkinä käytetään usein MACCS-avaimia, joilla on joko julkinen 166 avaimen tai laajempi 960 avaimen versio. Jokainen bitti kuvaa tiettyä rakenteellista elementtiä ja vaihtaa arvoksi 1, jos molekyyli sisältää sen.

Hash-pohjaiset sormenjäljet sen sijaan eivät vaadi ennalta määriteltyä sanastoa, vaan hajautusfunktio purkaa molekyylin kaikki lineaariset polut tiettyyn pituuteen asti ja muuntaa nämä polut kiinteän mittaisen bittivektorin kohdiksi. Tämä menetelmä tarjoaa joustavuutta ja mahdollistaa laajemman rakenteellisen informaation tallentamisen, vaikkakin joskus hajautuskohteet voivat mennä päällekkäin, mikä voi vähentää spesifisyyttä. Esimerkiksi polkuun perustuvat hash-sormenjäljet hajottavat molekyylin kaikki polut, kuten atomien väliset sidokset ja niiden pituudet, ja sovittavat ne kiinteän pituiselle bittivektorille, jossa useampi bitti voi syttyä samanaikaisesti.

Molekyylisormenjälkien avulla voidaan suorittaa tehokkaita samankaltaisuushakuja, joissa tutkitaan, kuinka monta bittiä kahden molekyylin sormenjäljistä vastaa toisiaan. Korkea samankaltaisuus indikoi rakenteellista läheisyyttä, mikä taas viittaa usein samankaltaiseen biologiseen aktiivisuuteen. Tämä mahdollistaa lupaavien yhdisteiden nopean seulonnan ja jatkojalostuksen ilman laajaa kokeellista työtä. On huomattava, että sormenjälkien valinta ja käyttö on aina sovellus- ja kohderyhmäkohtainen, sillä eri algoritmit painottavat erilaisia rakenteellisia piirteitä ja niillä on omat vahvuutensa ja heikkoutensa.

On olennaista ymmärtää, että molekyylien esitystavat ja suodatusmenetelmät muodostavat yhdessä tehokkaan esikarsintavaiheen, joka säästää resursseja ja parantaa koko lääkekehitysputken suorituskykyä. Pelkkä molekyylin fysikaaliskemiallisten ominaisuuksien tarkastelu ei riitä, vaan rakenteellisten varoitusmerkkien tunnistaminen sekä molekyylisormenjälkien käyttö tarjoavat syvällisemmän, ja usein käytännössä ratkaisevan, näkökulman molekyylien arvioinnissa. Lisäksi on hyvä tiedostaa, että molekyylien suodattaminen ja esittäminen numeerisessa muodossa eivät poista tarvetta lopullisille kokeellisille varmistuksille, vaan ovat osa järjestelmällistä, monivaiheista prosessia, jossa jokainen vaihe karsii ja tarkentaa tutkimuskohteita.

Kuinka mallittaa liukoisuutta lineaarisilla malleilla ja miksi se on tärkeää lääkeaineiden kehityksessä?

Lääkeaineiden liukoisuus on keskeinen ominaisuus, joka vaikuttaa suoraan niiden biologiseen hyötyosuuteen ja terapeuttiseen tehokkuuteen. Liukoisuudella tarkoitetaan lääkkeen kykyä liueta biologisissa nesteissä, kuten vedessä tai mahalaukunesteissä. Huono liukoisuus voi johtaa heikkoon imeytymiseen ja siten vähäiseen lääkkeen määrään verenkiertojärjestelmässä, mikä taas voi vaatia suurempia annoksia ja lisätä haittavaikutusten riskiä. Suun kautta otettavat lääkkeet ovat erityisen alttiita liukoisuusongelmille, sillä niiden imeytyminen riippuu suoliston kautta tapahtuvasta liukenemisesta ja myöhemmästä metaboloinnista maksassa.

Lineaariset mallit tarjoavat tehokkaan tavan mallintaa liukoisuutta käyttämällä molekyylien rakenteellisia ja kemiallisia ominaisuuksia selittävinä muuttujina. Toisin kuin luokittelumallit, jotka ennustavat kategorisia tuloksia, lineaarinen regressio ennustaa jatkuvaa arvoa, tässä tapauksessa liukoisuuden määrää. Tällaisen mallin avulla voidaan arvioida yhdisteiden liukoisuutta ennakkoon, mikä auttaa priorisoimaan ja suunnittelemaan lääkeaineita, joilla on parempi farmakokineettinen profiili.

Koulutusvaiheessa mallille annetaan joukko molekyylideskriptorien arvoja (xn) sekä kokeellisesti mitattuja liukoisuusarvoja (yn). Mallin tavoitteena on oppia hypoteesi g, joka minimoi virheen kokeellisten mittausten ja mallin ennusteiden välillä. On huomattava, että kokeelliset liukoisuusmittaukset voivat vaihdella tutkimuslaitoksesta, mittausmenetelmästä ja henkilöstä riippuen, mikä lisää datan kohinaa ja haastetta mallin luotettavuudelle. Tästä syystä yhden datalähteen käyttö yksinkertaistaa mallintamista, vaikka todellisuudessa mittaustulokset eivät ole täysin yhdenmukaisia.

Datapohjana käytetään usein julkisia benchmark-datastoja, kuten AqSolDB:tä, joka sisältää lähes kymmenentuhatta veden liukoisuusmittausta eri lääkeaineille. Mallin validointiin voidaan käyttää erilaisia tietojoukkojen jakoja, kuten satunnaista jakoa tai kemialliseen rakenteeseen perustuvaa "scaffold"-jakoa. Scaffold-jako pyrkii säilyttämään molekyylien kemiallisen rakenteen johdonmukaisuuden eri datasetin osissa, mikä parantaa mallin yleistettävyyttä erityisesti epätasapainoisissa aineistoissa, joissa tietyt molekyylityypit ovat harvinaisia.

Satunnaisjako on helpompi toteuttaa, mutta se voi johtaa ongelmiin, kun aineistossa esiintyy piileviä rakenteellisia yhteyksiä, sillä samankaltaiset molekyylit voivat päätyä eri datan osiin. Tämä saattaa tehdä mallista ylioptimistisen ja heikentää sen suorituskykyä todellisessa käytössä. Scaffold-jako sen sijaan säilyttää kemiallisten rakenteiden ryhmittelyn, mikä tekee mallista realistisemman arvioinnin kohteen.

On myös tärkeää huomioida, että liukoisuuden mallintaminen lineaarisilla malleilla tarjoaa samalla näkökulman bias-variance -kompromissiin, joka määrittää mallin yleistyskyvyn ja ylisovittamisen riskin. Hyvin valittu lineaarinen malli voi selittää olennaiset riippuvuudet molekyylien ominaisuuksien ja liukoisuuden välillä ilman, että se sovittaa liikaa kohinan osia. Tämä korostaa datan laadun merkitystä sekä huolellista hyperparametrien säätöä.

Lopuksi, liukoisuusmallien avulla voidaan myös tehdä ennusteita muiden haitallisten farmakologisten vaikutusten, kuten hERG-kanavan salpaajien ja lääkkeiden maksavaurion (DILI) riskeistä, mikä on kriittistä turvallisuuden arvioinnissa. Näiden mallien yhdistäminen mahdollistaa lääkeaineiden tehokkaamman ja turvallisemman suunnittelun.

Liukoisuuden lisäksi on tärkeää ymmärtää, että mallin ennustettavuus ja luotettavuus riippuvat olennaisesti datan esikäsittelystä, kuten kemiallisten rakenteiden validoinnista ja standardoinnista, sekä kokeellisten mittausten tarkkuudesta. Lisäksi farmakokinetiikan muut vaiheet, kuten imeytyminen, jakautuminen, metabolia ja eritys, vaikuttavat lääkkeen kokonaisvaikutukseen, joten liukoisuus on vain yksi osa laajempaa kokonaisuutta. Tämä korostaa, että koneoppimismallien tulisi olla integroitu osa monimutkaista lääkeaineiden kehitysprosessia, jossa useiden ominaisuuksien samanaikainen analysointi on välttämätöntä.

Miten rakentaa sujuva ja optimoitu molekyylikartta autoenkooderilla?

Tehokkaan optimoinnin ytimessä on käsitys kartasta, jonka päällä liikumme etsien parempia molekyylejä. Kuvitellaan, että liikumme Eiffelin tornin itäpuolella – askel itään ei saa viedä meitä yhtäkkiä keskelle merta, vaan pysymme kaupungin alueella. Sama logiikka pätee molekyylien optimointiin: pienet muutokset pitäisi johtaa molekyyleihin, joiden ominaisuudet paranevat asteittain. Jos kartta on sujuva ja jatkuva, agentti voi oppia, että tietyllä suunnalla eteneminen parantaa ominaisuuksia luotettavasti. Jos taas kartta on katkonaista, epävakaata ja kaoottista, pienikin askel voi muuttaa molekyyliä radikaalisti ja arvaamattomasti. Tällöin optimointi muistuttaa sattumanvaraista arvaamista.

Tämän vuoksi kartan tulee olla sujuva ja informatiivinen. Keskeinen työkalu kartan rakentamiseen on autoenkooderi – neuroverkko, joka oppii pakkaamaan monimutkaisen molekyylidatan tiiviiksi ja jatkuvaksi latentin vektoriksi, jonka pohjalta alkuperäinen molekyyli voidaan rekonstruoida mahdollisimman tarkasti.

Autoenkooderissa on kaksi pääkomponenttia. Ensimmäinen, enkooderi, ottaa korkean ulottuvuuden alkuperäisen datan – tässä tapauksessa molekyylin esityksen, kuten SMILES-merkkijonon – ja pakkaa sen matalampaan, tiiviiseen latentin avaruuden pisteeseen. Tämän latentin vektorin täytyy sisältää vain olennaisimmat piirteet, jotta se toimii informaation pullonkaulana. Enkooderi ei voi vain tallentaa koko alkuperäistä tietoa sellaisenaan, vaan sen on opittava tiivistämään tärkeimmät, keskeisimmät molekyylin ominaisuudet.

Toinen osa, dekooderi, ottaa latentin vektorin ja yrittää purkaa sen takaisin alkuperäiseksi molekyyliksi mahdollisimman tarkasti. Koulutuksen tavoitteena on minimoida rekonstruktiohäviö, eli ero alkuperäisen ja rekonstruoidun molekyylin välillä. Tämä prosessi pakottaa verkon oppimaan merkityksellisiä molekyylin piirteitä, jotka ovat olennaisia sekä pakkaamisen että purkamisen kannalta.

Yksi suurimmista haasteista on muuntaa SMILES-merkkijonot numeeriseen muotoon, jota neuroverkot pystyvät käsittelemään. Tähän käytetään tokenisointia, jossa merkkijonot pilkotaan pienempiin yksiköihin, kuten yksittäisiin merkkeihin tai merkkijonojen osiin. Esimerkiksi kemialliset ryhmät kuten 'Cl' tai '[nH]' korvataan yksittäisillä merkeillä helpottamaan prosessointia. Lisäksi otetaan käyttöön erikoistokeneita, jotka merkkaavat esimerkiksi merkkijonon alkua, loppua, täyttömerkkejä lyhyempien merkkijonojen tasaamiseen sekä tuntemattomia merkkejä.

Tokenisoinnin avulla SMILES-merkkijonot voidaan muuntaa kokonaislukujonoksi, jossa jokaisella tokenilla on uniikki numeerinen indeksi. Tämä muunnos mahdollistaa neuroverkon tehokkaan käsittelyn, sillä verkot operoivat numeerisilla matriiseilla. Samalla tokenisointi säilyttää molekyylin kemiallisen informaation olennaiset piirteet, mikä on kriittistä onnistuneen enkoodauksen ja dekoodauksen kannalta.

Neuroverkkojen koulutuksessa on huomioitava, että syötteet voivat olla eripituisia, joten ne pitää usein täyttää (pad) tiettyyn maksimipituuteen, jotta ne voidaan käsitellä tehokkaasti samassa erässä (batch). Tämä varmistaa, että malli pystyy oppimaan yleistettäviä ja sujuvia esityksiä eri pituisista molekyyleistä.

Tärkeää on ymmärtää, että latentin avaruuden rakenne määrittelee optimoinnin onnistumisen: jatkuva, sujuva ja rakenteeltaan järkevä latentti avaruus mahdollistaa molekyylien ominaisuuksien asteittaisen parantamisen pienin muutoksin. Tämä puolestaan tekee koneoppimispohjaisesta molekyylisuunnittelusta tehokkaampaa ja luotettavampaa.

On keskeistä huomata, että autoenkooderin latentin avaruus ei ainoastaan tiivistä dataa, vaan toimii myös eräänlaisena molekyylien karttana, jossa etäisyydet ja suuntaukset vastaavat kemiallisia ja fysikaalisia ominaisuuksia. Tämä ominaisuus mahdollistaa vahvistusoppimisen (reinforcement learning) soveltamisen, jossa agentti voi navigoida latentissa avaruudessa pienin askelin etsien molekyylejä, joiden ominaisuudet paranevat.

Lisäksi lukijan on tärkeää ymmärtää, että tokenisointi ja latentin esityksen rakenne vaikuttavat suoraan mallin kykyyn yleistää ja luoda uusia molekyylejä. Pelkkä rekonstruktio ei riitä; malli tarvitsee sisäistää kemiallisesti merkitykselliset yhteydet, jotta se voi tuottaa järkeviä, uusia molekyylejä. Tämä korostaa neuroverkkojen suunnittelun ja koulutuksen hienovaraisuutta kemiallisissa sovelluksissa.

Miten arvioidaan molekyylien generatiivisten mallien suorituskykyä?

Molekyylien generatiivisten mallien arviointi vaatii monipuolista lähestymistapaa, koska mallin tehtävä on paitsi oppia molekyylien rakenteelliset ominaisuudet, myös tuottaa uusia, kemiallisesti päteviä yhdisteitä. Näiden mallien arvioinnissa keskitytään kolmeen keskeiseen osa-alueeseen: rekonstruoinnin laatuun, latenttitilan laatuun ja generoinnin laatuun.

Rekonstruoinnin laatu mittaa, kuinka tarkasti malli pystyy palauttamaan alkuperäisen molekyylin, kun se ensin pakataan latenttitilaan ja siitä puretaan takaisin. Tähän liittyvät mittarit vaihtelevat token-tason tarkkuudesta kemialliseen validiteettiin ja tarkkaan vastaavuuteen. Esimerkiksi token-tarkkuus kuvaa sitä, kuinka monta yksittäistä merkkiä (kuten SMILES-merkkijonon merkkiä) malli ennustaa oikein, mikä on välttämätöntä, mutta ei riittävää, koska yhden virheen vaikutus voi olla katastrofaalinen molekyylin pätevyyden kannalta. Kemiallisesti pätevien rekonstruoitujen molekyylien osuus on myös tärkeä mittari: sen avulla varmistetaan, että malli ei tuota kemiallisesti merkityksettömiä rakenteita. Lisäksi tarkka vastaavuus mittaa kuinka usein rekonstruoitu molekyyli on identtinen alkuperäisen kanssa, mikä on haasteellista, sillä yksi molekyyli voi saada useita päteviä SMILES-esityksiä. Tanimoton samankaltaisuus puolestaan arvioi rakenteellista lähelläoloa, vaikka SMILES-esitykset eroaisivat, mikä antaa joustavamman näkymän rekonstruoinnin laatuun.

Latenttitilan laatu puolestaan liittyy siihen, kuinka hyvin malli on oppinut järjestämään kemiallisen informaation jatkuvaan ja loogisesti muotoiltuun avaruuteen. Ihanteellinen latenttitila on jatkuva ja säännönmukainen siten, että pieniä muutoksia latenttikoordinaateissa vastaavat pienet muutokset molekyylin rakenteessa. Tätä arvioidaan esimerkiksi latenttitilan jatkuvuudella, jossa lisätään systemaattisesti häiriötä latenttikoordinaatteihin ja seurataan, miten molekyylien kemiallinen samankaltaisuus muuttuu. Lisäksi interpolaatiotestin avulla tarkastellaan, kuinka sujuvasti mallin latenttitilassa voidaan liikkua kahden tunnetun molekyylin välillä ja tuottaa kelvollisia, rakenteellisesti samankaltaisia molekyylejä. Matala interpolaation sujuvuuden arvo kertoo, että mallin latenttitila ei ole hyvin järjestäytynyt, ja "väliavaruus" sisältää usein epäkelpoja rakenteita.

Generoinnin laatu on viimeinen ja ratkaiseva askel: pystyykö malli luomaan uusia, kemiallisesti päteviä ja monipuolisia molekyylejä satunnaisesti latenttitilasta otetuista pisteistä? Yksinkertaisella autoenkooderilla, joka ei säännöllistä latenttitilan rakennetta, tämä on ongelmallista. Latenttitila muodostuu erillisistä pisteistä ilman jatkuvuutta, jolloin satunnaisotanta johtaa lähes aina kemiallisesti epäkelpoihin rakenteisiin. Validiteettiprosentti on tällöin käytännössä nolla, mikä tekee mallista hyödyttömän generatiivisiin tarkoituksiin. Myös uniikkiuden mittarit osoittavat tällöin arvoksi nollan, koska kelvollisia ja erilaisia molekyylejä ei synny. Tämä johtuu siitä, että dekooderi oppii palauttamaan ainoastaan ne pisteet, joita enkooderi on nähnyt, mutta ei osaa käsitellä latenttitilan "tuntemattomia alueita".

Tämä ongelma muistuttaa kartan tekemistä: yksinkertainen autoenkooderi luo latenttitilasta sirpaleisen "saariston", jossa jokainen saari vastaa yhtä opittua molekyyliä, mutta saarien välissä on tyhjää ja epäkelpoa aluetta. Tällaista "saarekkeiden karttaa" ei voi käyttää tutkimiseen eikä uusien yhdisteiden löytämiseen. Tämän vuoksi kehitettiin Variational Autoencoder (VAE) -arkkitehtuuri, joka pakottaa latenttitilan muodostumaan jatkuvaksi ja tiiviisti järjestetyksi "mantereeksi". Näin satunnaisotannat latenttitilasta johtavat suuremmalla todennäköisyydellä päteviin ja merkityksellisiin molekyyleihin.

Kemian generatiivisissa malleissa on tärkeää ymmärtää, että tekniset mittarit eivät ole pelkkää numeraalista vertailua, vaan heijastavat mallin kykyä omaksua kemiallisten rakenteiden syvällisiä ominaisuuksia. Pelkkä token-tason tarkkuus tai validiteetti ei riitä; malli tarvitsee kokonaisvaltaisen ymmärryksen molekyylien monimuotoisuudesta, jatkuvuudesta ja kontekstista. Lisäksi, vaikka malli tuottaisi kelvollisia molekyylejä, niiden kemiallinen merkitys ja soveltuvuus tieteellisiin tai lääketieteellisiin tarkoituksiin vaativat erillistä arviointia ja jatkotutkimusta. Latenttitilan jatkuvuuden parantaminen ja generatiivisen kapasiteetin laajentaminen ovat keskeisiä haasteita, joiden ratkaisu avaa ovia uusiin molekyylisuunnittelun mahdollisuuksiin.