Miten koneoppiminen mullistaa lääkekehityksen haasteet?

Lääkekehitys on monitahoinen, aikaa vievä ja erittäin kallis prosessi, jossa ideasta markkinoille pääseminen voi kestää jopa 10–15 vuotta ja kustannukset voivat nousta miljardiluokkaan. Menestysprosentti on pieni, sillä jopa 90 % kliinisiin kokeisiin päätyvistä lääkeaihioista epäonnistuu, ja kokeellisiin tutkimuksiin käytetty raha, joka päätyy hyödyntämättömiin tuloksiin, on merkittävä. Tässä valtavassa ja monimutkaisessa haasteessa koneoppiminen (machine learning, ML) ja syväoppiminen (deep learning, DL) tarjoavat uudenlaisia työkaluja, jotka voivat nopeuttaa ja tehostaa lääkekehityksen eri vaiheita.

Koneoppimisen avulla voidaan käsitellä valtavia määriä kemiallista ja biologista dataa, mikä auttaa suodattamaan ja tunnistamaan lupaavia lääkeaihioita nopeasti ja tehokkaasti. Syväoppimisen läpimurrot, kuten AlphaFold, joka ratkaisi pitkään vaikean proteiinien kolmio-ulotteisen rakenteen ennustamisen, ovat mullistaneet rakenteellisen biologian ja siten nopeuttaneet lääkekehitystä merkittävästi. AlphaFoldin avulla voidaan nykyään ennustaa proteiinien rakenteita aminohapposekvensseistä tarkasti, mikä tarjoaa korvaamattoman pohjan kohdelääkkeiden suunnittelulle ja vaikuttaa suoraan lääkkeiden kehitysaikatauluihin ja kustannuksiin.

Lääkekehitys voidaan nähdä äärimmäisen haastavana etsintäongelmana: maailmassa on arvioitu olevan noin 10^63 lääkemäistä molekyyliä, mikä ylittää esimerkiksi maapallon hiekanjyvien määrän noin 10^39-kertaisesti. Tämän valtavan kemiallisen avaruuden läpikäyminen yksitellen on käytännössä mahdotonta, ja siksi koneoppimisen tehokas käyttö mahdollistaa lupaavien molekyylien suodattamisen ja priorisoinnin. Lisäksi lääkkeen vaikutuskohteet — proteiinit, nukleiinihapot ja muut biomolekyylit — muodostavat oman biologisen avaruutensa, jossa tunnettuja ihmisen proteiineja on noin 10^5. Lääkekehitys tapahtuu näiden kahden avaruuden leikkauskohdassa, jossa molekyyli yhdistyy vaikutuskohteeseensa tuottaen toivotun vaikutuksen.

Tämän kirjan näkökulmasta koneoppimisen ja syväoppimisen yhdistäminen kemian ja biologian dataan on keskeinen teema. Kirja etenee käytännönläheisesti esimerkkitapausten avulla, joissa hyödynnetään avoimen lähdekoodin cheminformatiikkatyökaluja, kuten RDKit, sekä koneoppimiskirjastoja, kuten PyTorch. Tämä tarjoaa lukijalle mahdollisuuden ymmärtää ja soveltaa algoritmeja kemiallisten ominaisuuksien ennustamiseen, molekyylien generointiin sekä lääkeaineiden vuorovaikutusten analysointiin. Kirja ei edellytä syvällistä taustaa kemian tai tietojenkäsittelytieteen alalta, vaan edistyneen Python-ohjelmoinnin perustason hallinta riittää.

Koneoppimisen arvo lääkekehityksessä ei rajoitu vain nopeuteen, vaan se auttaa myös parantamaan lääkekandidaattien turvallisuusarvioita, mikä vähentää epäonnistuneiden ja haitallisten lääkkeiden markkinoille pääsyä. Tämä puolestaan suojaa potilaita ja yritysten mainetta sekä vähentää taloudellisia tappioita. Lisäksi syväoppimisen menetelmät, kuten generatiiviset mallit, avaavat mahdollisuuksia täysin uusien molekyylirakenteiden suunnitteluun, joita perinteiset menetelmät eivät tavoita.

On tärkeää ymmärtää, että koneoppimisen menetelmät vaativat suuria ja laadukkaita kemiallisia sekä biologisia tietoaineistoja. Julkisesti saatavilla olevat kemialliset tietokannat tarjoavat arvokasta materiaalia, mutta datan huolellinen kuratointi, esikäsittely ja oikean mallin valinta ovat ratkaisevia onnistumisen kannalta. Myös mallien tulkittavuus ja yleistettävyys ovat keskeisiä haasteita, joihin nykyiset tutkimukset pyrkivät vastaamaan.

Lopuksi, lääkekehityksen monimutkaisuus ja laajuus korostavat yhteistyön merkitystä eri alojen asiantuntijoiden välillä. Koneoppiminen ei korvaa kemistien tai biologien asiantuntemusta, vaan toimii työkaluna, joka tukee ja tehostaa heidän työtään. Syvä ja laaja ymmärrys koneoppimisen mahdollisuuksista ja rajoitteista on välttämätöntä, jotta sen potentiaali voidaan maksimoida lääkekehityksen edistämisessä. Tämän lisäksi lukijan tulisi tiedostaa eettiset ja käytännölliset näkökohdat, kuten datan laatu, yksityisyys sekä algoritmien vinoumat, jotka voivat vaikuttaa mallien luotettavuuteen ja käyttökohteisiin.

Koneoppiminen lääkekehityksessä: Virtuaaliset seulontamenetelmät ja sukupolvien muutos

Lääkekehityksen prosessi on äärimmäisen monimutkainen ja aikaa vievä. Kokeellisesti testattavien yhdisteiden määrä voi helposti nousta kymmeniin miljooniin, ja tämän valtavan määrän seulominen voi kestää vuosikymmeniä. Yksi lääkeaineiden etsinnän suurimmista haasteista on se, että suurin osa molekyyleistä on huonoja lääkeehdokkaita. Teollisuuden tiloissa voidaan testata jopa 10^5–10^7 yhdistettä päivässä, riippuen kokeen monimutkaisuudesta. Jos haluaisimme testata 10^63 yhdistettä, se veisi vähintään 2.7 * 10^53 vuotta, mikä on huomattavasti pidempi aikajänne kuin maailmankaikkeuden olemassaolo, joka on arvioitu olevan noin 13.7 miljardia vuotta. Tämän vuoksi koneoppimisen (ML) rooli lääkekehityksessä on tullut entistä tärkeämmäksi. Sen avulla voidaan automatisoida lääkekehitysprosessia ja saada aikarajoitteiden ja kemiallisten rajojen vuoksi lähes mahdottomalta tuntuvasta haasteesta hallittavampaa.

Koneoppimisen avulla on mahdollista kehittää malleja, jotka pystyvät oppimaan aineistosta ja tekemään ennusteita ilman, että niitä on ohjelmoitu suoraan tätä tehtävää varten. Esimerkiksi lasten opettaminen tunnistamaan koira valokuvista on verrattavissa siihen, kuinka koneoppimismalli opetetaan tunnistamaan lääkeaineita, jotka voivat olla tehokkaita. Tämä prosessi perustuu siihen, että opetamme mallille erottamaan kuvia, joissa on koiria, ja kuvia, joissa ei ole. Kun malli on oppinut tunnistamaan koirat, voimme antaa sille uusia kuvia, joita se ei ole nähnyt, ja pyytää sitä erottamaan koirat muista kuvista. Samalla tavalla koneoppimismallin avulla voidaan opettaa tietokoneelle, mitkä molekyylit ovat potentiaalisia lääkeaineita ja mitkä eivät.

Virtuaaliset seulontamenetelmät (VS) ovat keskeinen työkalu lääkekehityksessä, ja niiden avulla voidaan simuloida molekyylien vuorovaikutuksia kohdereseptoreiden kanssa tai ennustaa muita lääkekehitykselle tärkeitä ominaisuuksia. Tämä auttaa vähentämään niitä yhdistettäviä yhdisteitä, joita on kokeellisesti testattava. Perinteiset VS-menetelmät, kuten molekyylidynamiikan tai molekyylin sitoutumisen simulointi, perustuvat fysiikan perusperiaatteisiin, kuten molekyylien välisten voima kenttien mallintamiseen. Nämä menetelmät tarjoavat tarkkoja ennusteita, mutta ne ovat laskennallisesti kalliita ja hitaita. Koneoppimiseen perustuvat virtuaaliset seulontamenetelmät sen sijaan voivat nopeasti ja edullisesti arvioida, onko tietty molekyyli toivottujen ominaisuuksien, kuten alhaisen toksisuuden tai korkean sitoutumisen, mukainen ilman perinteisten simulointien tarvetta.

Esimerkiksi, jos tavoitteena on löytää molekyylejä, joilla on korkea liukoisuus ja alhainen toksisuus, koneoppimismalli voidaan kouluttaa ennustamaan näiden molekyylien ominaisuuksia. Kun olemme kouluttaneet mallin, voimme syöttää siihen laajan joukon mahdollisia yhdisteitä ja saada ennusteita niiden liukoisuudesta ja toksisuudesta. Näin voimme valita parhaiten toimivat yhdisteet kokeellista testausta varten. Virtuaalinen seulonta on huomattavasti nopeampaa ja edullisempaa verrattuna perinteiseen kokeelliseen seulontaan: se voi käsitellä 10^9–10^12 yhdistettä päivässä, mikä vastaa lähes kolmea vuotta perinteistä seulontaa jokaista virtuaalista seulontapäivää kohden.

Virtuaalisen seulonnan tehokkuuden rajoitukset voivat kuitenkin silti estää meitä kattamasta koko kemiallista tilaa, joka saattaa sisältää jopa 10^63 lääkeaineen kaltaista yhdistettä. Tämän vuoksi on aloitettu kehitystyö, joka kääntää prosessin päälaelleen. Entä jos pystyisimme määrittämään halutut ominaisuudet ja niiden arvovälin ja antamaan mallin luoda molekyylejä, jotka täyttävät nämä kriteerit? Näin voimme suoraan generoida uusia molekyylejä, jotka todennäköisesti täyttävät halutut vaatimukset.

Generatiivinen kemia on nouseva alue, jossa koneoppimismalleja käytetään uusien kemiallisten rakenteiden luomiseen. De novo -suunnittelussa tavoitellaan täysin uusien kemiallisten rakenteiden luomista, jotka täyttävät halutut ominaisuudet. Tämä voi johtaa siihen, että malli pystyy luomaan rakenteita, jotka ovat aiemmin tuntemattomia mutta silti täyttävät vaadittavat toiminnalliset kriteerit, kuten liukoisuus ja toksisuus. Tällainen lähestymistapa on erityisen lupaava, koska se voi mahdollistaa todella innovatiivisten lääkkeiden kehittämisen, jotka poikkeavat merkittävästi aiemmin tunnetuista rakenteista. Tämä saattaa osaltaan vastata Eroomin lain haasteeseen, joka kuvaa farmaseuttisen tutkimus- ja kehitystyön laskevaa tehokkuutta ja kustannusten nousua.

Kun farmaseuttiset yritykset kohtaavat rajoitetun pääoman ja suuret riskit, innovaatioiden sijaan saattaa painottua niin sanottujen "me-too"-lääkkeiden kehittäminen, jotka ovat hyvin samankaltaisia kuin aiemmin markkinoille tulleet lääkkeet mutta pienillä rakenteellisilla muutoksilla. Tämä hidastaa uuden ja aidosti innovatiivisen lääkehoidon kehitystä.

On selvää, että koneoppimisen ja generatiivisen kemian yhdistäminen voi avata täysin uusia mahdollisuuksia lääkekehityksessä, nopeuttaen prosesseja ja tuoden uusia lääkkeitä markkinoille aiempaa tehokkaammin ja vähemmällä kustannuksella.

Miten syväoppiminen ja proteiiniin kohdistuva lääkehaku edistävät SARS-CoV-2:n Mpro-proteaasin estoa?

SARS-CoV-2:n pääproteaasi (Mpro) on keskeinen virusreplikaation moottori, ja sen estäminen on osoittautunut lupaavaksi lähestymistavaksi COVID-19-taudin hoidossa, minkä Paxlovid ja Ensitrelvir ovat käytännössä vahvistaneet. Mpro:n estäminen pysäyttää viruksen monistumisen solussa, mikä tekee siitä houkuttelevan kohteen antiviraalisten lääkkeiden kehityksessä. Tutkimus on hyödyntänyt massiivista korkean läpimenon seulontaa (HTS), jolla arvioitiin tuhansia yhdisteitä Mpro:n estovaikutuksen kannalta. Tämä prosessi sisälsi toistuvia sykliä yhdisteiden suunnittelussa, synteesissä ja kokeellisessa testaamisessa, mikä nopeutti lupaavien molekyylien optimointia.

COVID Moonshot -projekti oli merkittävä esimerkki yhteisöllisestä lähestymistavasta, jossa yli 18 000 suunnitelmaa kerättiin crowdsourcing-menetelmällä, arvioitiin niiden synteesikelpoisuutta ja toimivuutta, ja yli 2 000 suunnitelmaa toteutettiin laboratoriossa. Näistä yhdisteistä IC50-arvot määritettiin korkean läpimenon menetelmin — IC50 kuvaa pitoisuutta, jolla 50 % proteiinin aktiivisuudesta estyy. Pienempi IC50 tarkoittaa tehokkaampaa ja spesifisempää estoa, mikä on välttämätöntä lääkkeen turvallisuuden ja tehokkuuden kannalta.

Syväoppimisen käyttö lääkehankinnassa on mullistanut tavan, jolla ennustetaan yhdisteiden vaikutusta proteiineihin. Ligandi- eli molekyylipohjainen virtuaalinen seulonta (VS) on keskeinen lähestymistapa, jossa neuroverkkoja koulutetaan ennustamaan yhdisteiden aktiivisuutta tiettyä proteiinikohdetta vastaan. PyTorch-kirjaston kaltaiset syväoppimisen työkalut mahdollistavat monimutkaisten neuroverkkomallien rakentamisen, joiden avulla voidaan havaita perinteisin menetelmin näkymättömiä piirteitä ja vuorovaikutuksia molekyylien ja proteiinien välillä.

Proteiinikinaasit ovat merkittävä esimerkki lääkekehityksen kohteista. Ne katalysoivat fosfaattiryhmien siirtoa ATP-molekyyleistä substraateille, mikä säätelee solun signalointireittejä. Kinasit ovat mukana monissa sairauksissa, erityisesti syövässä ja tulehduksissa. Vaikka yli 80 kinasin estäjää on hyväksytty kliiniseen käyttöön, suurin osa kinasiperheestä on edelleen alitutkittua aluetta, mikä tarjoaa laajoja mahdollisuuksia uusille lääkkeille.

Kinaasin estäjien kehitys kohtaa kuitenkin haasteita. Lääkkeen tehokkuus riippuu sekä sitoutumisesta haluttuun proteiiniin että sen selektiivisyydestä suhteessa muihin saman proteiiniperheen jäseniin. Usein ATP-sitoutumiskohta on hyvin säilynyt, mikä lisää ei-toivottuja sivuvaikutuksia muiden kinaasien aktivoitumisen tai estymisen kautta. Tällaisen selektiivisyyden mittaaminen laajasti kaikille kinaaseille on kalliita ja vaikeaa, joten laskennalliset menetelmät, kuten syväoppiminen, tarjoavat järkeviä vaihtoehtoja ennustaa ja optimoida spesifisyyttä.

Tutkimuksessa painopiste on siirtynyt yhä enemmän rakenteeseen perustuvaan lähestymistapaan, jossa tunnetun proteiinin kolmiulotteinen rakenne auttaa mallintamaan ligandin sitoutumista ja vaikutuksia. Tämä tarjoaa syvällisemmän ymmärryksen molekyylien vuorovaikutuksista ja mahdollistaa tehokkaamman lääkeaineiden suunnittelun.

Tärkeimpiin kohteisiin kuuluu myös reseptoriperheitä, kuten G-proteiinikytkentäisiä reseptoreita (GPCR), ligandien ohjaamia ionikanavia (LGIC) sekä tyrosiinikinaasiin liittyviä reseptoreita. Näillä reseptoreilla on ratkaiseva rooli solujen välisessä viestinnässä ja ne ovat monimutkaisempia kuin entsyymit, mutta tarjoavat samalla mahdollisuuksia uusien terapeuttisten mekanismien löytämiseen.

Syväoppimisen tehokkuus perustuu sen kykyyn oppia laajoista ja monimutkaisista aineistoista ilman, että ihmisen tarvitsee manuaalisesti määrittää kaikkia ominaisuuksia. Kuitenkin mallin luotettavuus ja uskottavuus on tarkastettava kriittisesti, jotta sen ennusteisiin voidaan luottaa käytännön lääkehankinnassa.

On tärkeää ymmärtää, että vaikka teknologia ja mallit ovat edistyneet, lääkeaineiden kehitys on monivaiheinen ja haastava prosessi. Syväoppiminen ja laskennalliset menetelmät nopeuttavat ja tehostavat tätä prosessia, mutta kliiniset kokeet ja laaja tutkimus ovat välttämättömiä varmistamaan turvallisuus ja teho ihmisillä.

Miten valmistellaan proteiini ja ligandi laskentaa varten, kun sitoutumiskohta on tuntematon?

Kun sitoutumiskohta proteiinissa on tuntematon, käytetään niin kutsuttua "sokeaa dockkausta" (blind docking), jossa koko proteiinin pinta otetaan mahdollisena sitoutumiskohteena. Tällöin on ensiarvoisen tärkeää erotella ligandit ja proteiinit omiksi PDB-tiedostoikseen, jotta molempia voidaan käsitellä ja valmistella erikseen. MDTraj-kirjasto tarjoaa tehokkaat työkalut tähän erotteluun. Se lukee PDB-tiedoston ja muodostaa siitä Trajectory-olion, joka sisältää kolmiulotteiset koordinaatit, topologian ja muut rakenteelliset tiedot. Trajectory-olion avulla voidaan helposti valita ja tallentaa proteiinin ja ligandien atomit erillisiksi PDB-tiedostoiksi, mikä on välttämätöntä jatkokäsittelyä varten.

Proteiinin ja ligandien PDB-tiedostojen erotteleminen ei kuitenkaan yksin riitä. Ennen dockkausta on varmistettava, että rakenteet ovat täydellisiä ja virheettömiä. PDB-tiedostoissa on usein puutteita: puuttuvia aminohappoja, ei-standardeja aminohappoja, puuttuvia atomeja tai vetyatomeja, jotka ovat tärkeitä molekyylien välisissä vuorovaikutuksissa. Näiden korjaamiseen käytetään esimerkiksi PDBFixer- ja OpenMM-kirjastoja, joiden avulla proteiinirakenne voidaan täydentää ja korjata automaattisesti.

Proteiinirakenteen korjausprosessi koostuu useista vaiheista: puuttuvien residuujen ja atomien etsimisestä ja lisäämisestä, ei-standardien aminohappojen korvaamisesta standardeilla, heterogeenien kuten liuotinmolekyylien poistamisesta ja puuttuvien vetyatomien lisäämisestä oikeassa pH-tilassa (yleensä pH 7.4). Tämä viimeinen vaihe on keskeinen, koska protonaatioaste vaikuttaa suoraan sitoutumisen luonteeseen ja vahvuuteen, sillä vety- ja ionisidokset ovat herkkiä pH-arvolle. Proteiinin korjaaminen aloitetaan puuttuvien osien lisäämisellä, sillä ne vaikuttavat koko rakenteen vakauteen, jonka jälkeen käsitellään kemialliset erityistapaukset ja lopuksi lisätään puuttuvat atomit ja vedyt.

Ligandien valmistelussa käytetään samanlaisia periaatteita: niiden rakenne luetaan, valmistellaan ja tallennetaan lopulliseen muotoon, joka sopii dockkausohjelmiston käyttöön, kuten SDF-muotoon. Näin molemmat molekyylit – sekä reseptori että ligandit – ovat virheettömiä, simulaatioon soveltuvia ja valmiita tarkkaan ja luotettavaan laskentaan.

On tärkeää huomata, että proteiini ei ole dockkauslaskelmissa koskaan tyhjiössä, vaan se on normaalisti vesimolekyylien ympäröimänä. Dockkausprosessissa vesimolekyylit usein poistetaan, koska ne voivat häiritä laskelmia, mutta myöhemmin voidaan lisätä sopivia liuotinmalleja vastaamaan biologista ympäristöä tarkemmin.

Lopulta korjattu ja valmisteltu proteiinirakenne tallennetaan PDBQT-muodossa, joka sisältää kaikki tarvittavat tiedot dockkausalgoritmille, kuten joustavuustiedot ja sidokset. Tämä muoto on usein dockkausohjelmistojen vaatimuksena, jotta laskenta sujuu optimaalisesti.

Tietämys siitä, miten rakenteet valmistellaan oikein, on ratkaisevaa luotettavan dockkaustuloksen saavuttamiseksi. PDB-tiedostojen korjaukset eivät ole pelkästään teknisiä askelia, vaan ne vaikuttavat suoraan laskennan onnistumiseen ja lopullisen molekyylien vuorovaikutuksen ymmärtämiseen. Rakenteiden huolellinen valmistelu takaa, että laskenta simuloi biologisia olosuhteita mahdollisimman tarkasti.

Lisäksi on tärkeää ymmärtää, että dockkaus on aina ennuste ja vaatii jatkokonfirmaatiota kokeellisilla menetelmillä. Dockkaustulokset ovat lähtökohta, joka ohjaa kokeellista suunnittelua ja molekyylien optimointia. Proteiinien ja ligandien huolellinen valmistelu on ensimmäinen ja välttämätön askel kohti luotettavia molekyylisuunnittelun tuloksia.

Miten tehokkaasti hallita CO2-päästöjä käyttäen metalliorgaanisia kehyksiä (MOF) ja liuoksista saatavia adsorbentteja?
Mikä oli mykeneläisten kulttuuri ja heidän vaikutuksensa kreikkalaiseen maailmaan?
Miten ylittää taloudellinen kuilu vähemmistöjen välillä?
Miksi Caligula murhattiin?