Les règles de Lipinski, souvent utilisées pour évaluer la viabilité d’un composé en tant que candidat médicament, reposent sur cinq critères essentiels. Le premier est la masse moléculaire, qui ne doit pas excéder 500 Da. Le second est le nombre de donneurs de liaisons hydrogène (HBD), qui ne doit pas dépasser 5. Le troisième critère est le nombre d’accepteurs de liaisons hydrogène (HBA), limité à 10. Enfin, le quatrième critère est l’hydrophobicité, mesurée par le logP, qui doit être inférieur ou égal à 5. Ces règles permettent d’éliminer les composés trop volumineux ou trop hydrophiles, qui risquent de poser des problèmes lors de leur diffusion à travers les membranes cellulaires.

Lorsqu'on applique ces critères de manière stricte à une bibliothèque de composés, on obtient des résultats intéressants. Par exemple, en filtrant une bibliothèque de 212 670 composés à l’aide des critères de Lipinski, la taille de la bibliothèque est réduite à environ 157 000 composés. Cette diminution entraîne également une modification des propriétés moyennes des molécules, telles qu'une diminution du logP de 49,7 % et un léger recul du nombre d’accepteurs de liaisons hydrogène (HBAs). Cependant, cette réduction de la bibliothèque ne garantit pas encore que tous les composés retenus soient sûrs ou efficaces. Pour aller plus loin, il est nécessaire d'introduire des filtres supplémentaires qui tiennent compte de la structure moléculaire elle-même.

Les filtres structurels sont essentiels pour éliminer les composés problématiques qui, bien qu’ils puissent respecter les critères de Lipinski, sont susceptibles d’interférer avec les tests expérimentaux ou de présenter des risques de toxicité. Parmi ces filtres, les composés dits "PAINS" (Pan Assay Interference Compounds) sont particulièrement importants. Ce sont des molécules qui semblent actives dans de nombreux essais biologiques, mais qui sont en réalité des faux positifs, souvent dus à une liaison non spécifique avec les cibles biologiques. Les composés PAINS peuvent donc fausser les résultats des tests et doivent être éliminés de toute bibliothèque de composés avant de procéder à des études plus approfondies.

En plus des filtres PAINS, il existe des alertes structurales qui permettent d’identifier des motifs chimiques associés à des risques de toxicité. Par exemple, certains groupes fonctionnels comme les thiophènes, les époxydes et les anhydrides d’acides sont connus pour être liés à des effets toxiques comme l’hépatotoxicité ou la mutagénicité. Lorsqu’un composé contient ces motifs dans une concentration élevée, il doit être écarté. Cependant, bien que les alertes structurales soient utiles, elles ne permettent pas toujours de prédire avec précision les effets toxiques, car certaines molécules présentant ces alertes peuvent être sans danger dans certains contextes, tandis que d’autres sans alertes peuvent être toxiques. Par conséquent, les alertes structurales doivent être utilisées avec précaution et en complément d’autres approches.

Pour affiner encore la sélection des composés, des filtres comme les BRENK et les REOS (Rapid Elimination of Swill) sont utilisés pour identifier rapidement les composés de faible qualité, c’est-à-dire ceux qui ont peu de chances de réussir dans les essais biologiques ou qui risquent de donner des résultats faussement positifs. Le but de REOS est de rationaliser le processus de dépistage en éliminant les composés peu prometteurs dès les premières étapes. Ces filtres peuvent être appliqués à l’aide de règles prédéfinies dans des outils comme RDKit, qui est un logiciel largement utilisé en chimie computationnelle pour manipuler des molécules et effectuer des calculs sur leurs propriétés.

Une fois ces différents filtres appliqués, la bibliothèque de composés peut être réduite à un ensemble beaucoup plus petit et plus prometteur, par exemple 73 783 composés dans un cas donné. Ce nombre reste néanmoins important et peut encore être affiné à l’aide de modèles plus sophistiqués prenant en compte des informations biophysiques et biochimiques plus complexes, qui permettraient de prédire les interactions de ces composés avec des cibles biologiques spécifiques.

Il est essentiel de comprendre que bien qu’il soit possible d’éliminer un grand nombre de composés grâce à ces filtres, il reste toujours une part d’incertitude. Les outils de filtrage, tels que ceux basés sur les critères de Lipinski ou les alertes structurales, offrent des prévisions utiles, mais ils ne garantissent pas toujours la sécurité ou l’efficacité d’un médicament. Ces filtres, bien qu’indispensables, doivent être vus comme des étapes dans un processus plus large de validation et d’évaluation qui inclut des essais biologiques et des modèles prédictifs plus avancés. Il est donc crucial que les chercheurs en découverte de médicaments complètent ces méthodes de filtrage par des études expérimentales rigoureuses afin de réduire au minimum les risques associés aux composés potentiels.

Comment prétraiter et explorer un jeu de données de blocage du canal hERG dans la découverte de médicaments ?

Le blocage ou non du canal hERG est une tâche d’apprentissage supervisé cruciale pour la découverte de médicaments, en particulier dans le cadre de la toxicité cardiaque, car ce canal ionique est essentiel pour la régulation de l’activité cardiaque. Afin de développer un modèle capable de prédire si une molécule va interférer avec ce canal, il est nécessaire de disposer de jeux de données de qualité et bien structurés. Dans cette section, nous examinerons comment obtenir, explorer et nettoyer un tel jeu de données, en utilisant des ressources comme les bases de données publiques et les publications scientifiques.

Acquisition et exploration des données

Comme mentionné dans l’annexe B de ce livre, de nombreuses bases de données publiques, telles que PubChem et ChEMBL, offrent des ensembles de données pour la prédiction des propriétés moléculaires. Ces sources permettent d’accéder à des informations précieuses sur la structure chimique et les propriétés biologiques des molécules. Une autre ressource utile provient des publications scientifiques, où les auteurs mettent souvent à disposition les données de leurs expériences. Si vous êtes déjà familier avec un domaine particulier de la chimiométrie, vous connaissez probablement les ensembles de données de référence courants utilisés dans ce domaine. Toutefois, pour les personnes moins familières avec un sous-domaine spécifique, il est recommandé d'utiliser un agrégateur de jeux de données comme Papers With Code, qui met à disposition des ensembles de données dans divers domaines de l’apprentissage automatique, y compris la découverte de médicaments. Un autre site particulièrement utile pour la découverte de médicaments est le Therapeutics Data Commons (TDC).

Chargement et exploration du jeu de données des bloqueurs du hERG

En consultant les jeux de données TDC pour la toxicité, on peut trouver des références à trois ensembles de données relatifs aux bloqueurs du hERG. Par souci de simplicité, commençons par télécharger et charger le jeu de données des bloqueurs du hERG dans un DataFrame Pandas. Ce jeu de données comprend 587 composés, chaque ligne représentant une molécule. Il contient six colonnes : le nom de la molécule, sa représentation SMILES (Simplified Molecular Input Line Entry System), le pIC50, la classe, la division par structure et la division aléatoire. Le pIC50 est une mesure de la puissance d’un médicament, définie comme le logarithme négatif de la concentration inhibitrice IC50 en molarité. Les valeurs de pIC50 sont essentielles pour évaluer l’efficacité d’un composé, mais elles ne peuvent pas être utilisées comme caractéristiques pour l’entraînement d’un modèle, car elles définissent précisément la variable cible que nous cherchons à prédire. Par ailleurs, il est possible que la qualité des données pIC50 varie en fonction des conditions expérimentales et des méthodes de mesure. Dans ce contexte, le modèle que nous développons cherche à prédire si un composé est un bloqueur du hERG sans se baser sur des valeurs expérimentales, mais uniquement sur des informations structurelles et moléculaires.

Curation et nettoyage des données

Lorsque l’on travaille avec des ensembles de données, qu’ils proviennent de grandes bases de données publiques ou de petites études expérimentales, la curation des données est une étape indispensable. La simple révision manuelle de chaque entrée de données est irréaliste. Cependant, l’utilisation de l’exploration de données (EDA) permet de visualiser et de résumer les caractéristiques des données pour repérer d’éventuelles incohérences. Un outil essentiel dans ce processus est la visualisation de la distribution des valeurs, en particulier la distribution du pIC50. La représentation graphique de ces valeurs peut permettre de détecter des erreurs d’annotation, comme des valeurs anormalement élevées ou faibles qui pourraient suggérer une erreur dans l’unité de mesure, par exemple, une confusion entre les unités nanomolaires et micromolaires. Ce genre d’anomalie pourrait être signalé lors d’une analyse de distribution bimodale, ce qui nécessiterait une révision plus approfondie des données.

Validation et standardisation des SMILES

Une fois les données nettoyées, il est crucial de vérifier la validité des représentations SMILES des composés chimiques, car des erreurs dans la notation SMILES peuvent entraîner des erreurs structurelles. Pour ce faire, il est nécessaire de visualiser les structures des molécules et de s’assurer que la représentation textuelle correspond à la structure chimique attendue. Cela permet non seulement de vérifier la diversité structurelle des bloqueurs et non-bloqueurs, mais aussi d'identifier d’éventuelles erreurs dans la structure chimique qui peuvent être plus fréquentes aux extrêmes de l’échelle.

L’exploration de ces données doit aller au-delà de la simple validation des valeurs individuelles. Il est essentiel de comprendre le contexte global des propriétés moléculaires des composés afin de mieux prédire leur potentiel comme bloqueurs du hERG. Cela inclut non seulement l’analyse des valeurs de pIC50, mais aussi l’étude de la répartition des classes (bloqueur ou non bloqueur du hERG) et la manière dont les différentes propriétés moléculaires pourraient influencer cette classification.

Conclusion

Une exploration complète et soignée des données est la clé pour bâtir un modèle efficace dans la prédiction des bloqueurs du hERG. La mise en place d'une curation de qualité, la vérification de la distribution des variables et la validation des représentations SMILES sont des étapes cruciales pour garantir des prédictions fiables et robustes. Cependant, au-delà de ces étapes techniques, il est essentiel de comprendre que la qualité des données d'entrée conditionne directement la performance du modèle. La création d'un modèle de prédiction n'est pas seulement une question d'algorithmes, mais aussi de préparation minutieuse des données.

Comment prédire l'interaction des petites molécules avec des cibles ARN ? Une approche QSAR pour la découverte de médicaments

La modélisation des interactions entre petites molécules et ARN cible représente un domaine stratégique de la recherche pharmaceutique, surtout dans le cadre des thérapies antivirales et anticancéreuses. Les petites molécules capables de se lier à l'ARN peuvent modifier des processus biologiques essentiels, notamment en inhibant des interactions ARN-protéine, en modifiant les épissages ARN ou en favorisant la dégradation de l'ARN. Cependant, la conception de telles molécules efficaces pose plusieurs défis techniques liés aux propriétés uniques et dynamiques des molécules d'ARN.

L'un des principaux obstacles à la modélisation de ces interactions réside dans la flexibilité structurelle de l'ARN. Contrairement aux cibles protéiques, qui présentent souvent des sites de liaison bien définis, l'ARN est plus variable dans ses conformations, adoptant souvent plusieurs structures tridimensionnelles. Cette diversité de conformations complique la détermination des structures de haute résolution des complexes ARN-molécule. En outre, la disponibilité de données expérimentales est limitée, ce qui entrave la capacité à établir des modèles prédictifs fiables.

Dans ce contexte, les modèles de relation structure-activité quantitative (QSAR) émergent comme des outils puissants pour prédire les propriétés de liaison des petites molécules à des cibles ARN spécifiques, comme l'élément TAR du VIH-1. Le travail de Cai et al. [1] présente un exemple de pipeline QSAR pour prédire l'interaction entre de petites molécules et un ARN cible. À travers ce modèle, il devient possible de lier des descripteurs moléculaires à l'activité expérimentale d'un composé, offrant ainsi un moyen de filtrer et de concevoir des molécules thérapeutiques potentiellement efficaces.

L'un des aspects essentiels de ce modèle est la capacité à calculer des descripteurs moléculaires pertinents qui décrivent à la fois les structures 2D et 3D des molécules. Les descripteurs moléculaires jouent un rôle clé dans la modélisation QSAR en traduisant les caractéristiques chimiques des molécules en données numériques qui peuvent être utilisées pour entraîner un modèle prédictif. Le processus commence par la définition de la structure de chaque molécule, suivie de l'extraction de descripteurs qui capturent les caractéristiques géométriques et chimiques essentielles de la molécule, notamment la taille, la forme, la polarité et la flexibilité. En outre, des techniques de réduction de dimensionnalité, telles que l'analyse en composantes principales (PCA), peuvent être utilisées pour simplifier l'ensemble des données tout en conservant l'information cruciale.

Une fois les descripteurs calculés, l'étape suivante consiste à former un modèle prédictif en utilisant des méthodes d'apprentissage machine telles que les arbres de décision, les machines à gradient renforcé (Gradient Boosting), ou d'autres techniques de régression. Ces modèles sont ensuite utilisés pour prédire l'activité des molécules en fonction des descripteurs calculés, permettant de classifier les ligands potentiels en fonction de leur capacité à se lier à la cible ARN.

Il est crucial de comprendre que ces modèles ne se contentent pas seulement de prédire les ligands les plus prometteurs, mais permettent également d'interpréter quelles caractéristiques de la molécule sont les plus influentes pour son activité biologique. Ce processus d'interprétation est rendu possible par des techniques telles que l'analyse de l'importance des variables, qui permet de lier les performances du modèle aux caractéristiques chimiques spécifiques des molécules. Cela peut ensuite orienter la conception de nouvelles molécules en guidant les chercheurs sur les modifications chimiques qui amélioreront leur affinité avec la cible ARN.

Le cas du modèle ARN TAR du VIH-1 illustre non seulement l'application des méthodes QSAR à la recherche de médicaments antiviraux, mais aussi l'impact potentiel de ces approches sur la compréhension de la biologie du VIH. L'élément TAR du VIH-1 joue un rôle clé dans la réplication virale, et des molécules qui interagissent avec cet ARN pourraient offrir de nouvelles voies pour traiter des infections virales persistantes. Le développement de telles molécules thérapeutiques repose sur la capacité à prédire avec précision l'activité de petites molécules en utilisant des descripteurs et des modèles basés sur l'apprentissage automatique.

Cependant, malgré les progrès réalisés dans ce domaine, plusieurs défis demeurent. La disponibilité limitée des données expérimentales reste un obstacle majeur, car une petite taille d'échantillon peut entraîner des modèles moins robustes. De plus, la nature dynamique de l'ARN, qui peut adopter diverses conformations, impose des défis supplémentaires pour la création de modèles universels capables de prédire l'interaction des petites molécules avec différents types de cibles ARN. Pour surmonter ces obstacles, il devient crucial de continuer à développer des techniques d'intégration de données provenant de différentes sources, ainsi que des modèles plus sophistiqués qui peuvent gérer des incertitudes et des variations dans les données.

En parallèle, la compréhension des mécanismes sous-jacents à l'interaction ARN-molécule est essentielle pour la conception de médicaments plus ciblés et efficaces. De nouvelles approches, telles que l'utilisation de techniques d'apprentissage profond et l'amélioration des méthodes d'interprétabilité des modèles, pourraient transformer notre capacité à prédire et à concevoir des ligands plus sélectifs et plus puissants.

L'importance de l'ARN dans les processus biologiques et son implication dans diverses pathologies en font une cible thérapeutique de premier ordre. En utilisant des méthodologies QSAR adaptées, il devient possible de cibler des structures ARN spécifiques, jusque-là considérées comme indragables, offrant ainsi des opportunités de traitement pour une gamme de maladies complexes. L'intégration de ces modèles dans la recherche pharmaceutique pourrait également contribuer à l'avènement de nouvelles classes de médicaments capables de traiter des pathologies jusqu'alors difficiles à soigner.

Comment les bases de données publiques enrichissent la recherche pharmaceutique : principes et défis des données FAIR

Les bases de données publiques jouent un rôle central dans la recherche pharmaceutique, offrant une ressource essentielle pour la découverte de nouveaux médicaments. Des structures chimiques aux informations bioactives, ces bases de données sont l'épine dorsale de l'innovation en biotechnologie. Parmi les plus influentes, on trouve ChEMBL, PubChem, le Protein Data Bank (PDB), et plusieurs autres, qui offrent une large gamme de données expérimentales et prédictives, facilitant la découverte de nouveaux médicaments et l'optimisation des traitements existants. Mais au-delà de la simple consultation de ces ressources, comprendre leur fonctionnement et leurs limites est crucial pour éviter les écueils dans l'application des modèles d'intelligence artificielle (IA) à la recherche pharmaceutique.

Le système ChEMBL, géré par l'European Bioinformatics Institute (EBI), est l'une des bases de données les plus complètes dans le domaine de la bioactivité chimique. Elle contient plus de 40 ans de recherches publiées et regroupe 213 ensembles de données, plus de 86 000 publications, 15 000 cibles de médicaments, ainsi que des millions de composés chimiques et de mesures bioactives. Ce système est structuré autour des principes FAIR (trouvable, accessible, interopérable, réutilisable), garantissant ainsi un accès de qualité aux chercheurs et aux développeurs. De son côté, ChEBI, également maintenu par l'EBI, regroupe environ 60 000 entités chimiques d'intérêt biologique et sert de dictionnaire pour des composés utilisés dans la recherche biomédicale.

PubChem, une base de données parrainée par la National Library of Medicine des États-Unis, va encore plus loin, avec des informations sur plus de 1,1 milliard de composés chimiques. Elle regroupe des données issues de plus de 900 sources différentes, et fournit des informations complémentaires sur des gènes, des protéines, des voies biologiques et des publications scientifiques. PubChem inclut également des sous-ensembles de données spécifiquement liés à des sujets d'actualité, comme la pandémie de COVID-19, et a intégré les données de ToxNet, une ressource dédiée aux toxines et à la toxicologie.

Les données structurelles, quant à elles, trouvent leur source dans des outils tels que la diffraction des rayons X, la résonance magnétique nucléaire (RMN) et la cryo-microscopie électronique (Cryo-EM). Le Protein Data Bank (PDB) est l'une des plus importantes bases de données pour ces données tridimensionnelles sur les protéines et autres macromolécules biologiques. Elle permet aux chercheurs d'examiner les interactions entre des médicaments potentiels et leurs cibles protéiques, en fournissant des informations cruciales pour la conception de médicaments basés sur la structure. En 2019, des bases de données comme ChemSpider et DrugBank ont enrichi encore davantage les ressources disponibles, avec des informations sur des millions de structures chimiques et des milliers de médicaments approuvés par la FDA, permettant aux chercheurs d'aller au-delà des données expérimentales pour explorer la pharmacologie et les mécanismes d'action des molécules.

Cependant, malgré la richesse de ces bases de données, des défis majeurs subsistent. Le plus grand d'entre eux est la qualité des données. Les données de mauvaise qualité sont susceptibles de générer des modèles d'intelligence artificielle erronés, un phénomène connu sous le nom de "garbage in, garbage out" (GIGO). Cette limitation touche particulièrement les modèles d'IA qui cherchent à explorer l'immense espace des molécules. Lorsque la diversité des structures chimiques dans un ensemble de données est insuffisante, la portée du modèle devient restreinte, ce qui limite son utilité pour explorer des molécules aux propriétés bioactives inédites ou non testées. Les erreurs dans la collecte et la standardisation des données peuvent également nuire à la précision des analyses, réduisant ainsi la fiabilité des prédictions générées.

Un autre défi réside dans la provenance des données. Il est essentiel de comprendre d’où provient chaque donnée, comment elle a été collectée et comment elle a été traitée. Par exemple, ChEMBL collecte des données à partir de publications scientifiques, mais chaque information subit des étapes de curation manuelle et automatisée pour standardiser les types d'activité, corriger les erreurs et éviter les doublons. Une mauvaise curation ou un biais dans les données originales peuvent affecter les résultats obtenus et entraîner une mauvaise interprétation des données.

En plus des défis liés à la qualité des données, il est crucial de prendre en compte la manière dont les données sont échangées entre différentes sources. Des plateformes comme UniChem permettent de croiser des identifiants et des structures chimiques issues de plusieurs bases de données, ce qui peut entraîner des incohérences si les données ne sont pas harmonisées correctement. Ainsi, comprendre comment ces différentes sources s’interconnectent et comment elles valident les données est essentiel pour éviter des erreurs lors de l’utilisation de ces bases de données pour l’IA.

Pour une application efficace des modèles d’intelligence artificielle à la recherche de médicaments, il est fondamental de s’assurer que les ensembles de données utilisés sont de qualité et bien curés. Une vérification minutieuse de la provenance des données et de la manière dont elles ont été manipulées avant d’être intégrées dans une base de données est indispensable. Cela inclut la vérification des méthodologies de curation et des processus automatisés qui garantissent l’intégrité des informations. De plus, l’évolution constante des bases de données, avec l'ajout de nouvelles recherches et données, permet d'améliorer la couverture et la précision des modèles, mais cela requiert un suivi constant des mises à jour et des corrections.