Logistinen regressio ei suoraan muodosta lineaarista yhteyttä ominaisuuksien ja ennusteen välille, koska se käyttää sigmoidifunktiota puristamaan ennusteen todennäköisyydeksi. Tämän vuoksi mallin painojen merkitys tulee ymmärtää logaritmisen todennäköisyyssuhteen, eli log-oddsin, kautta. Oddsit kuvaavat onnistumisen todennäköisyyden ja epäonnistumisen todennäköisyyden suhdetta, ja log-odds on näiden suhteiden logaritmi.

Kun ominaisuuden paino on positiivinen, ominaisuuden arvon kasvaessa log-odds kasvaa, mikä tarkoittaa, että todennäköisyys sille, että vaste on onnistunut (esim. molekyyli sitoo halutun kohteen), lisääntyy. Vastaavasti negatiivinen paino vähentää tätä todennäköisyyttä. Log-oddsista voidaan laskea odds-suhde, joka kuvaa kuinka paljon yhden ominaisuuden arvon yksikkömuutos kasvattaa tai pienentää onnistumisen todennäköisyyttä. Esimerkiksi painolla 0,45 yksikön nousu ominaisuudessa kasvattaa odssia noin 57 %, mikä antaa selkeän ja kvantitatiivisen tavan ymmärtää mallin vaikutuksia.

Toisaalta päätöspuut tarjoavat intuitiivisen ja visuaalisen lähestymistavan luokitteluun. Päätöspuu toimii kuin monitasoinen kysymyspeli, jossa jokainen solmu jakaa datan kahteen tai useampaan osaan jonkin ominaisuuden arvon perusteella. Prosessi alkaa juurisolmusta ja etenee haarautumien kautta lehtisolmuihin, joissa lopullinen ennuste tehdään. Esimerkiksi molekyylien luokittelussa voidaan käyttää ominaisuuksia kuten molekyylipaino ja logP. Kunkin solmun päätöskriteeri perustuu ominaisuuden arvoon, ja solmujen puhtautta mitataan Gini-impuriteetilla, joka kuvaa kuinka sekoittunut luokkaesimerkkien jakauma solmussa on.

Päätöspuut ovat helposti tulkittavia, sillä niiden rakenne paljastaa mallin päätöksenteon askel askeleelta. Lisäksi ne tarjoavat läpinäkyvyyttä mallin käyttäytymiseen, mikä auttaa vianetsinnässä ja tärkeimpien ominaisuuksien tunnistamisessa. Päätöspuut vaativat vähemmän esikäsittelyä, eivätkä ne ole herkkiä esimerkiksi skaalaamiselle tai normaalistamiselle. Ne kykenevät luonnollisesti käsittelemään sekä numeerista että kategorista dataa sekä puuttuvia arvoja. Lisäksi päätöspuut soveltuvat joustavasti myös regressioon.

Päätöspuun rakentaminen perustuu top-down -menetelmään, jossa valitaan ominaisuuksia, jotka parhaiten erottavat datan eri luokkiin. Tämä perustuu mittareihin kuten Gini-impuriteettiin tai entropiaan. Algoritmi jakaa dataa ominaisuuden arvojen mukaan luoden haaroja, ja prosessia toistetaan, kunnes saavutetaan pysäytysehto, kuten maksimisyvyys tai solmujen riittävä puhtaus. Lehtisolmut sisältävät lopulliset ennusteluokat.

On tärkeää ymmärtää, että sekä logistisen regression että päätöspuiden tulkinta vaatii datan ja mallin toiminnan yksityiskohtaista ymmärrystä. Log-oddsin käsite auttaa avaamaan logistisen regression painojen vaikutuksen, kun taas päätöspuut konkretisoivat päätökset selkeiksi ja helposti seurattaviksi askeliksi. Molemmat menetelmät tarjoavat erilaisia etuja ja rajoituksia, jotka on huomioitava mallin soveltamisessa ja tulosten tulkinnassa.

Lisäksi on syytä muistaa, että mallin tulkinta ei ole pelkkä painojen tai haarojen lukemista, vaan vaatii ymmärrystä siitä, miten ominaisuudet yhdessä vaikuttavat ennusteeseen. Monissa sovelluksissa ominaisuudet voivat olla korreloituneita tai vuorovaikutuksessa toistensa kanssa, mikä tekee yksittäisten painojen tai jakokriteerien merkityksen arvioinnista haastavaa ilman laajempaa kontekstia. Mallin läpinäkyvyys ja tulkittavuus ovat keskeisiä tekijöitä, kun tavoitteena on ymmärtää ja luottaa koneoppimismallin tekemisiin päätöksiin.

Miten protomeerit ja konformaatit vaikuttavat ligandien kuvailuun ja molekyylien vuorovaikutuksiin?

Aikaisemmissa luvuissa tyypillisesti käytettiin laajoja benchmarkaineistoja, joissa oli suuri määrä yhdisteitä. Tässä tapauksessa, jossa ligandien määrä on vain 48, on tärkeää panostaa kattavaan deskriptorien laskemiseen, joka huomioi kaksi ulottuvuutta: protomeerien ja konformaattien tilat. Tätä varten käytettiin Molecular Operating Environment (MOE) -ohjelmistoa, joka tarjoaa monipuoliset työkalut molekyylien visualisointiin, analysointiin ja manipulointiin. MOE mahdollistaa esimerkiksi farmakoforimallinnuksen, virtuaalisen seulonnan, molekyylidynamiikkasimulaation ja ligandireseptorisidonnan mallinnuksen, mikä tekee siitä arvostetun alustan sekä akateemisessa tutkimuksessa että lääkeainetutkimuksessa. Koska MOE on kaupallinen ja lisensoitava ohjelmisto, vastaavat vaiheet toteutettiin avoimen lähdekoodin RDKitillä ja muilla paketeilla, jotta jokainen operaatio pysyy läpinäkyvänä. Käytännössä kaupalliset työkalut saattavat kuitenkin olla käyttäjäystävällisempiä ja luotettavampia, mikäli niitä on käytettävissä.

Protomeerien tila kuvaa ligandien erilaisia muotoja, jotka syntyvät protonaation tai tautomerisaation seurauksena. Protonaatio tarkoittaa protonin (vetyionin) liittämistä molekyyliin, mikä muuttaa molekyylin kemiallisia ominaisuuksia kuten happamuutta tai emäksisyyttä. Tautomerisaatio puolestaan kuvaa sidosten uudelleenjärjestäytymistä molekyylissä, jolloin syntyy erilaisia rakenneisomeerejä. Protonaatio ja tautomerisaatio liittyvät toisiinsa, sillä protonin saanti voi laukaista tautomerisaation, joka tasapainottaa molekyylin varauksen, ja toisaalta tautomerisaatio vaikuttaa molekyylin happamuuteen tai emäksisyyteen, mikä puolestaan säätelee protonaatiotilaa. Tämä molekyylien muotojen moninaisuus on olennaista, sillä erilaiset protomeerit voivat vaikuttaa merkittävästi niiden sitoutumiseen kohteisiin.

Esimerkkinä käytettiin datajoukkoa, jossa 48 ligandista laajennettiin protomeerien joukko 1492 muotoon. Protomeerien generointiin käytettiin Dimorphite-DL -pakettia, joka protonoi ligandit biologisesti relevantilla pH-alueella 6.4–8.4. pH-ympäristö vaikuttaa merkittävästi molekyylien ionoituvien ryhmien protonaatiotilaan, ja käytännössä pH-arvon valinnalla pyritään vastaamaan kokeellisia olosuhteita, joissa mittaukset on tehty.

Konformaatiot eli konformaatit ovat molekyylin erilaisia kolmiulotteisia asentoja, jotka syntyvät rotaatioista molekyylin kääntyvien sidosten ympärillä. Konformaatiot voivat erota toisistaan merkittävästi muodon, koon ja joustavuuden suhteen, mikä puolestaan vaikuttaa molekyylin kykyyn sitoutua biologisiin kohteisiin. Tietyt konformaatiot voivat sopia kohteen sitoutumiskohtaan paremmin kuin toiset, ja siten konformaation erilainen järjestys voi vaikuttaa sitoutumisaffiniteettiin.

RDKitissä konformaattien generointi perustuu etäisyysgeometriaan. Ensiksi lasketaan molekyylin atomien väliset etäisyysrajat yhteyksien ja sääntöjen perusteella. Nämä rajat muodostavat matriisin, jonka puitteissa atomeiden väliset etäisyydet voivat vaihdella kelvollisessa konformaatiossa. Konformaatiot, jotka rikkovat näitä geometrisia rajoja, hylätään. Tämä lähestymistapa mahdollistaa konformaatiotilan laajan ja tehokkaan tutkimisen ilman kaikkein raskainta laskentaa, joka syntyisi jokaisen rotaatiokulman iteratiivisesta säätämisestä.

Koska molekyylin konformaatiotila voi olla hyvin suuri ja riippuu rotaatiokelpoisten sidosten lukumäärästä, täydellinen konformaatiotilan läpikäynti on käytännössä mahdotonta isommille molekyyleille. Tämän vuoksi käytetään satunnaistettuja menetelmiä, jotka valikoivat konformaatioita stohastisesti ottaen huomioon monimuotoisuuden, laskentatehon ja tarkkuuden kompromissit.

Tässä tapauksessa jokaiselle protomeerille otettiin huomioon kaikki potentiaaliset konformaatit, joiden energia oli enintään 3 kcal/mol pienimmän energian konformaation tasosta, ja niille laskettiin deskriptorit. Näin pyrittiin muodostamaan kuva protomeerin monimuotoisesta konformaatiotilasta yhdistämällä eri konformaatioiden tiedot yhdeksi kuvaavaksi vektoriksi.

Molekyylien protomeerien ja konformaatiotilojen huomioiminen on välttämätöntä, kun pyritään ymmärtämään niiden sitoutumista biologisiin kohteisiin. Tämä kaksitasoinen tilamallinnus auttaa ennustamaan tarkemmin molekyylien käyttäytymistä ja parantaa molekyylisuunnittelun ja lääkeaineiden löytämisen tarkkuutta.

Lisäksi on tärkeää ymmärtää, että protomeerien ja konformaatiotilojen generoinnissa syntyvien muotojen laatu ja kattavuus riippuvat käytetystä ohjelmistosta ja sen taustalla olevista kemiallisista säännöistä ja oletuksista. Tästä syystä tulokset eivät välttämättä ole täysin identtisiä eri ohjelmistoissa, mikä korostaa avoimien menetelmien ja läpinäkyvyyden merkitystä molekyylien kuvailussa.

Miten valita molekyylejä aktiivisessa oppimisessa virtuaalisessa seulonnassa?

Virtuaalinen molekyylien seulonta perustuu yhä useammin aktiiviseen oppimiseen, jossa mallin kehitystä ohjaa harkittu molekyylien valinta eri iteraatioissa. Tämän valinnan ytimessä ovat ns. hankintafunktiot, joiden tehtävä on arvioida, mitkä molekyylit ovat tutkimisen arvoisia – sekä mallin ennusteiden mukaan lupaavimpia että epävarmuuden perusteella informaatiopitoisimpia. Kaksi perusperiaatetta ohjaavat valintaa: epävarmuus ja edustavuus.

Epävarmuus tarkoittaa sitä, kuinka luottavainen malli on tietyn molekyylin aktiivisuusennusteeseen. Epävarmat kohdat edustavat alueita, joissa malli ei ole varma, ja juuri nämä kohdat voivat tarjota tärkeää uutta tietoa rajojen tarkentamiseen. Epävarmuutta voidaan mitata monin tavoin riippuen mallista. Esimerkiksi Gaussin prosesseissa ennusteen varianssi antaa suoran mittarin epävarmuudesta, monimalliset ensemble- menetelmät mittaavat mallien välistä erimielisyyttä, ja neuroverkoissa voidaan käyttää Monte Carlo -dropout-tekniikkaa, joka simuloi ennustuksia useissa eri alaryhmissä, tuottaen varianssin ennusteiden joukossa. Luokittelutehtävissä epävarmuuden huippu esiintyy lähellä päätösrajaa, jolloin molekyylit, jotka sijoittuvat aktiivisten ja inaktiivisten ennusteiden väliselle rajalle, ovat erityisen kiinnostavia.

Edustavuus puolestaan varmistaa, että valitut molekyylit kattavat hyvin koko syöteavaruuden, mikä estää mallia keskittymästä liiaksi tiettyihin kemiallisiin rakenteisiin ja ohittaa toiset alueet. Tämä on erityisen tärkeää, koska kemiallisen tilan laaja-alainen tutkiminen lisää mahdollisuuksia löytää täysin uusia, lupaavia molekyylejä. Edustavuutta voidaan toteuttaa valitsemalla monipuolisia ja toisiaan muistuttamattomia molekyylejä, hyödyntämällä tiheysperusteisia menetelmiä, joissa yhdistetään epävarmuus ja tiheysarviot, sekä klusterointiin perustuvilla valinnoilla, joissa kullekin rakenteelliselle klusterille valitaan edustava edustaja.

Hankintafunktioissa tarvitaan myös tasapaino tutkimisen (exploration) ja hyödyntämisen (exploitation) välillä. Tutkimisessa keskitytään ennennäkemättömiin molekyyleihin, jotka voivat laajentaa mallin ymmärrystä, kun taas hyödyntämisessä panostetaan jo hyvin toimivien molekyylien variaatioihin, jotta löydetään paras mahdollinen ehdokas. Esimerkiksi ahne (greedy) hankintafunktio valitsee aina mallin ennustaman parhaan molekyylin, mikä on puhdasta hyödyntämistä. Toisaalta epävarmuusperusteinen valinta korostaa tutkimista. Probabilistiset menetelmät, kuten Parannusmahdollisuuden todennäköisyys (PI) ja Odotettu parannus (EI), yhdistävät nämä tavoitteet, arvioiden paitsi parannuksen todennäköisyyttä myös sen suuruutta, mikä mahdollistaa joustavan ja tehokkaan oppimisen.

Monte Carlo -dropout on erityisen tärkeä menetelmä neuroverkkomalleille, koska se mahdollistaa epävarmuuden estimaatin ilman erillistä monimallista rakennetta. Dropout aktivoidaan myös ennustehetkellä, jolloin verkko tuottaa eri suorituksia samalle syötteelle ja ennusteiden hajonta toimii epävarmuuden mittarina.

Aktiivisen oppimisen prosessin onnistuminen riippuu siis hankintafunktion valinnasta ja sen kyvystä ohjata kokeiluja niin, että kemiallista tilaa tutkitaan monipuolisesti, mutta samalla keskitytään lupaavimpiin ehdokkaisiin. Valintojen vaikutus näkyy suoraan oppimisnopeudessa ja löydettyjen molekyylien laatuissa.

On tärkeää ymmärtää, että molekyylien valinta ei ole pelkkää ennustusten mukaan toimimista, vaan älykästä tiedon hankintaa: epävarmuuden hallinta mahdollistaa mallin nopeamman kehittymisen, ja laaja-alainen kattavuus estää ylivarautumisen tiettyihin rakenteisiin. Lisäksi rakenteelliseen monimuotoisuuteen perustuvat aloitusvalinnat tukevat koko prosessin tehokkuutta, koska ne luovat perustan monipuoliselle ja informatiiviselle oppimiselle.

Miten aktiivinen oppiminen ja oraakkeli tehostavat molekyylien laskentaa lääkekehityksessä?

Aktiivinen oppiminen on menetelmä, joka yhdistää koneoppimisen ja kohdennetun datan keruun, jotta mallin suorituskyky paranee tehokkaasti rajatuilla laskentaresursseilla. Tämän prosessin keskeinen komponentti on oraakkeli, joka toimii auktoriteettina ja muuntaa merkitsemättömät datapisteet merkityiksi. Tämä merkitsee esimerkiksi molekyylien kohdalla sitä, että oraakkeli antaa molekyylille luotettavan sidonnaisuuspisteytyksen tai muut arvot, jotka ovat mallin oppimisen lähtökohtana.

Oraakkelin rooli vaihtelee sovellusalueen mukaan. Kuvantunnistuksessa oraakkeleina toimivat usein ihmisasiantuntijat, jotka merkitsevät kuvia. Luonnollisen kielen prosessoinnissa vastaavat kielen asiantuntijat. Tässä yhteydessä oraakkeli on laskennallinen dockkausohjelma, AutoDock Vina, joka suorittaa molekyylien sidonnaisuuden simulaation ja palauttaa sitoutumisaffiniteettipisteet. Näiden pisteiden avulla mallia voidaan opettaa arvioimaan uusia molekyylejä.

Kuitenkin täysimittainen dockkaus kaikkien molekyylien kohdalla on käytännössä mahdotonta valtavien yhdisteiden kirjastojen takia. Tästä syystä aktiivinen oppiminen valitsee iteratiivisesti ne molekyylit, joiden arviointi oraakkelilla on eniten hyödyksi mallin oppimisessa. Kehitysvaiheessa käytetään usein proxy-oraakkelia, kuten deepdock_oracle-funktiota, joka simuloi dockkausprosessia käyttämällä valmiiksi laskettuja tuloksia. Tämä nopeuttaa algoritmin testaamista ja vertailua, kun todelliset dockkaukset vievät minuuteista tunteihin.

Multi-fideliteetin käsite laajentaa oraakkelien käyttöä: on olemassa erilaisia oraakkeleita, joiden tarkkuus ja laskentakustannukset vaihtelevat. Alhaisen tarkkuuden oraakkelit arvioivat nopeasti yksinkertaistetuilla pisteytyksillä, keskitason oraakkelit suorittavat perusdokkauksen, ja korkean tarkkuuden oraakkelit yhdistävät dockkauksen molekyylidynamiikkasimulaatioihin. Tämä monitasoinen lähestymistapa mahdollistaa tehokkaan resurssien käytön, arvioimalla ensin laajempi joukko kevyesti ja panostamalla tarkempiin laskelmiin lupaaviin kandidaatteihin.

Aktiivisen oppimisen syklin ytimessä on jatkuva prosessi, jossa pienellä alkudatalla koulutettu malli valitsee kerralla useita uusia molekyylejä dockattavaksi. Näin mallia päivitetään ja parannetaan vaihe vaiheelta. Tätä toistetaan, kunnes laskentabudjetti on käytetty loppuun tai suorituskyky saavuttaa halutun tason.

Mallit hyödyntävät epävarmuuden arviointia esimerkiksi dropout-tekniikalla, joka pidetään aktiivisena myös ennusteissa. Tällä tavoin saadaan näytemäärä, josta lasketaan ennusteiden hajonta, eli epävarmuus. Tämä epävarmuus on kriittinen aktiivisen oppimisen strategiassa, sillä se ohjaa mallit valitsemaan ne molekyylit, joiden arvioinnista saa eniten lisäarvoa.

Kaiken keskiössä on datan laatu ja edustavuus, sillä malli oppii vain niin hyvin kuin koulutusdata antaa myöden. Proxy-oraakkelien käyttö vaatii siis valmiin datakokoelman, jonka on oltava riittävän kattava ja monipuolinen. Esimerkiksi VEGFR-2-proteiinin sidontakohteen datasetti tarjoaa tärkeän lähtökohdan, sillä kyseinen reseptori on keskeinen verisuonten muodostumisen säätelyssä ja siksi tärkeä syövän lääkehoidon kehittämisessä.

Tämän prosessin ymmärtäminen on keskeistä, jotta voi arvostaa aktiivisen oppimisen tehokkuutta ja rajallisten laskentaresurssien järkevää käyttöä molekyylitutkimuksessa. Oraakkelin ja aktiivisen oppimisen yhdistelmä tarjoaa uuden tavan skaalata laskenta-analyysiä suurissa molekyylikirjastoissa, jolloin kalliita laskelmia tehdään vain silloin, kun niistä on todellista hyötyä.

Endtext