Dans le domaine de la chimie médicinale et du criblage moléculaire, il est essentiel de procéder à une sélection rigoureuse des composés pour s'assurer de leur efficacité et de leur sécurité avant de les envisager dans un contexte thérapeutique. Cette sélection se base sur plusieurs critères, dont la validité chimique des composés, leurs descripteurs moléculaires et les filtres appliqués pour éliminer ceux qui présentent des risques ou qui ne sont pas suffisamment pertinents. Nous explorons ici les différentes approches de filtrage basées sur les propriétés et les sous-structures des molécules.

Lors de la sélection des composés dans une bibliothèque de criblage, il est primordial d'éliminer les molécules qui peuvent présenter des motifs réactifs dangereux, susceptibles de provoquer des effets hors cible. De plus, certains éléments peuvent poser des problèmes de stabilité ou de toxicité. Par exemple, la présence d’un atome métallique dans une molécule peut nuire à sa stabilité ou entraîner une toxicité accrue, ce qui en fait un candidat moins viable. En termes de chimie médicinale, nous nous assurons généralement que les composés respectent les règles de valence et qu'ils ne présentent pas de structures chimiques non valides. Pour la majorité des ensembles de données avec lesquels nous travaillons, nous supposons que les molécules sont chimiquement valides si elles passent la validation et la désinfection par défaut de RDKit. Il est également possible de désactiver la désinfection de RDKit, par exemple lorsqu'on travaille avec une chimie non standard ou des états de transition, ou lorsque la préservation de la représentation exacte d’entrée est plus importante que la validité chimique.

Un autre aspect complexe de la représentation des molécules réside dans le format SMILES (Simplified Molecular Input Line Entry System). Il est à noter qu’un même composé peut être représenté par plusieurs SMILES différents. Cela peut créer des redondances dans les données. Afin d'éviter cette duplication qui peut troubler l’analyse, il est nécessaire de normaliser les SMILES en une forme unique, connue sous le nom de "SMILES canonique". En outre, en fonction de la conservation ou non de l'information stéréochimique ou isotopique pendant la normalisation, les SMILES obtenus peuvent être qualifiés de "SMILES absolus", lorsqu'ils retiennent toutes les informations relatives à la configuration chirale ou isotopique. En utilisant RDKit, la fonction Chem.MolToSmiles() génère par défaut des SMILES canonisés tout en conservant l'information stéréochimique.

Un autre aspect fondamental dans le processus de filtrage moléculaire repose sur les descripteurs moléculaires, qui permettent d’évaluer les propriétés quantifiables des molécules. Si les SMILES sont des chaînes de texte, elles ne sont pas directement exploitables par des modèles prédictifs ou des filtres. Il est nécessaire de les transformer en descripteurs numériques, qui peuvent être utilisés pour évaluer des molécules et alimenter des modèles d’apprentissage automatique. Ces descripteurs peuvent quantifier une variété de caractéristiques moléculaires et sont essentiels pour développer des modèles capables de prédire les propriétés d'autres composés.

Dans RDKit, par exemple, il existe plus de 200 descripteurs moléculaires qui permettent d'analyser des caractéristiques telles que le poids moléculaire, l'hydrophobicité, la surface polaire, ou encore les propriétés de la liaison hydrogène. Ces descripteurs fournissent un aperçu de la structure chimique et de la réactivité d'une molécule, permettant ainsi de les filtrer efficacement pour éliminer celles qui ne répondent pas à certains critères.

L’un des filtres les plus utilisés dans ce domaine est la "règle des cinq de Lipinski" (Lipinski’s Rule of Five), qui est une méthode simple mais efficace pour évaluer la biodisponibilité orale d'un composé. Cette règle stipule que les molécules ayant un poids moléculaire inférieur à 500 daltons, une lipophilie (logP) inférieure à 5, un nombre d’accepteurs de liaisons hydrogène inférieur à 10, et un nombre de donneurs de liaisons hydrogène inférieur à 5, sont plus susceptibles de traverser les membranes biologiques et d’être efficacement absorbées par l’organisme. Le respect de ces critères est un bon indicateur de la solubilité et de la perméabilité d’une molécule, des aspects cruciaux pour les médicaments administrés par voie orale.

En plus des descripteurs moléculaires, il existe des filtres basés sur la sous-structure, qui s'intéressent aux motifs récurrents dans la structure des molécules. Par exemple, certaines sous-structures peuvent indiquer une toxicité potentielle ou un manque d’efficacité pour certaines applications thérapeutiques. L’analyse de ces sous-structures est réalisée en décomposant les molécules en fragments plus petits, dont la fréquence et la distribution peuvent ensuite être étudiées pour repérer des motifs indésirables ou non pertinents pour l’objectif thérapeutique.

Un autre facteur important à prendre en compte est la diversité chimique au sein des bibliothèques de composés. Lors du criblage à haut débit, il est crucial de s’assurer que la bibliothèque contient une gamme variée de structures chimiques, car une diversité trop faible pourrait limiter les chances de trouver des candidats prometteurs. La sélection des composés à partir des descripteurs moléculaires et des filtres basés sur les sous-structures permet de réduire cette diversité à des molécules qui possèdent des propriétés optimales pour des tests supplémentaires.

Enfin, bien que les descripteurs et les filtres soient essentiels pour affiner le processus de sélection, il est important de se rappeler qu’ils ne sont qu’un aspect de la chimie des médicaments. D'autres facteurs, tels que la stabilité chimique et la toxicité, doivent également être pris en compte. La recherche continue dans ces domaines permet de mieux comprendre comment les différentes caractéristiques d'une molécule influencent son efficacité thérapeutique et sa sécurité pour les patients.

Comment évaluer et calibrer les modèles logistiques avec Platt Scaling et régression isotoniques

La calibration des modèles de régression logistique est essentielle pour améliorer la précision des probabilités prédites par le modèle. Ces méthodes permettent de réajuster les scores de probabilité afin qu'ils correspondent mieux à la réalité des données. Parmi les techniques les plus couramment utilisées, on trouve le Platt scaling et la régression isotoniques. Ces approches offrent une amélioration significative des prévisions probabilistes tout en ayant des avantages et des inconvénients spécifiques à leur utilisation.

Le Platt scaling repose sur une méthode paramétrique qui suppose une fonction sigmoïde, c'est-à-dire une courbe en "S". Cette méthode ajuste les probabilités en fonction des scores prédits par le modèle initial et des étiquettes réelles des instances. Le modèle de régression logistique ajusté grâce au Platt scaling permet ainsi de calibrer les probabilités pour obtenir des valeurs plus précises, tout en préservant la structure du modèle de départ. Cependant, bien qu’efficace, cette approche présente des limitations, notamment une certaine rigidité dans sa capacité à s'adapter aux structures complexes des données.

D’un autre côté, la régression isotoniques est une méthode non paramétrique qui n’impose aucune forme fonctionnelle spécifique aux données. Contrairement au Platt scaling, qui suppose une courbe sigmoïdale, la régression isotoniques ajuste les scores de probabilité en construisant une fonction monotone et par morceaux, qui s’adapte mieux à la structure sous-jacente des données. Cette flexibilité permet d’obtenir des résultats très précis, mais elle comporte également des risques, notamment en ce qui concerne la sensibilité aux valeurs aberrantes. La régression isotoniques peut en effet surajuster les données et devenir sujette à des erreurs de sur-ajustement.

Dans un contexte de calibration de modèle, l’utilisation de ces deux techniques peut être combinée, comme l’illustre le code de calibration avec la classe CalibratedClassifierCV de la bibliothèque sklearn. En comparant les diagrammes de fiabilité et les métriques de calibration pour ces deux méthodes, il apparaît clairement que le Platt scaling améliore de manière significative la RMSCE (Root Mean Squared Calibration Error), réduisant l’erreur de 0.08 à 0.04. Cependant, cette amélioration ne couvre pas entièrement l’espace des probabilités entre 0 et 1, ce qui peut être problématique si une couverture complète des probabilités est nécessaire. En revanche, la régression isotoniques, bien qu’elle réduise la RMSCE à 0.03, peut rendre la répartition des scores trop inégale, supprimant des instances importantes dans certaines catégories de probabilités.

Un autre aspect important de l’évaluation de modèles logistiques est la définition d’un seuil optimal pour binariser les prédictions en classes. Ce seuil influence la précision et le rappel du modèle. À mesure que l’on ajuste ce seuil, on observe des variations dans ces deux mesures. Une approche courante pour évaluer la performance sur différents seuils est d'utiliser les courbes de précision-rappel (PR) et de caractéristique de fonctionnement du récepteur (ROC). Les courbes PR visualisent l’impact des variations de seuil sur l’équilibre entre précision et rappel, tandis que les courbes ROC mettent en lumière les compromis entre sensibilité et spécificité. Dans des situations où la classe positive est rare, comme dans l'exemple de la prédiction des inhibiteurs, il est souvent plus pertinent d’utiliser la courbe PR pour évaluer le modèle.

Les courbes ROC, quant à elles, permettent d’évaluer la capacité du modèle à classer correctement les instances en fonction de leur probabilité. La surface sous la courbe ROC (ROC AUC) est un indicateur de la puissance discriminante du modèle. Plus cette surface est grande, mieux le modèle est capable de distinguer les instances positives des négatives. Toutefois, il convient de noter que dans des cas de déséquilibre de classe important, comme souvent dans les problèmes de classification avec des classes rares, la courbe PR peut être un choix plus robuste pour l’évaluation.

Enfin, pour déterminer le seuil optimal qui maximise à la fois la sensibilité et la spécificité, on peut se référer à l’indice de Youden. Cet indice correspond à la valeur du seuil qui maximise la différence entre le taux de vrais positifs (sensibilité) et le taux de faux positifs (1 - spécificité). Cette approche permet de trouver un seuil qui offre un bon compromis entre les différentes métriques de performance du modèle.

Dans le cadre de la régression logistique, l’interprétation des coefficients du modèle joue également un rôle clé. Dans un modèle de régression linéaire, une augmentation d’une variable explicative entraîne une augmentation ou une diminution proportionnelle de la variable cible. Cependant, dans le cas de la régression logistique, l'interprétation des coefficients nécessite une compréhension des log-odds, qui représentent la variation du logarithme des cotes des probabilités en fonction des changements des variables explicatives. Les coefficients logistiques doivent donc être interprétés dans ce contexte pour éviter toute confusion dans l’analyse des résultats.

En résumé, la calibration des modèles de régression logistique à l'aide du Platt scaling et de la régression isotoniques permet d'améliorer la précision des probabilités prédits par le modèle. Toutefois, ces approches ont leurs limites et nécessitent une attention particulière, notamment en ce qui concerne la sensibilité aux valeurs aberrantes et le sur-ajustement des données. Une bonne évaluation du modèle passe également par la définition d’un seuil optimal et l’utilisation de courbes PR et ROC pour analyser les compromis entre précision, rappel, sensibilité et spécificité. Un choix judicieux de ces méthodes en fonction du problème à résoudre et des données disponibles peut faire toute la différence dans la performance finale du modèle.

Les différences fondamentales entre les environnements in vitro et in vivo : Implications pour l'apprentissage supervisé et non supervisé dans la découverte de médicaments

Les expériences menées en laboratoire sont souvent réalisées dans des environnements contrôlés, dits in vitro, par opposition à celles menées à l'intérieur d'organismes vivants, qui sont qualifiées in vivo. Ces environnements distincts peuvent produire des résultats très différents, en raison de la complexité des interactions biologiques présentes dans un organisme entier, mais absentes dans des systèmes cellulaires isolés. Cette distinction est cruciale lorsqu'il s'agit de choisir les bonnes méthodes d'apprentissage automatique pour la découverte de médicaments, et c'est là qu'interviennent les paradigmes de l'apprentissage supervisé et non supervisé.

Dans le cadre de l'apprentissage supervisé, les données utilisées pour entraîner un modèle sont étiquetées. Par exemple, un problème de classification où nous avons un ensemble de molécules et leurs étiquettes associées, telles que "toxique" ou "non toxique". L'objectif est d'apprendre à classer ces molécules en fonction de leurs caractéristiques. Ces caractéristiques peuvent inclure des informations de base sur la molécule, telles que son poids moléculaire, le type et le nombre de liaisons qu'elle contient (liaison simple, double, aromatique, etc.), ou encore le nombre d'atomes qu'elle contient, comme les atomes de carbone, d'oxygène ou d'azote. Chaque molécule possède un vecteur de caractéristiques, et l'objectif du modèle est d'apprendre à prédire à quelle catégorie appartient une nouvelle molécule en fonction de ses caractéristiques.

Le processus d'apprentissage supervisé peut également inclure des tâches de régression. Ici, au lieu de classer les molécules dans des catégories discrètes, on cherche à prédire une quantité continue, comme la solubilité d'une molécule, en fonction de ses caractéristiques. Toutefois, le marquage des données est souvent coûteux et chronophage, ce qui amène à se tourner vers des approches non supervisées, où les données ne sont pas étiquetées. Dans le cadre de l'apprentissage non supervisé, l'objectif est d'explorer les données et d'en dégager des structures ou des modèles sans l'aide d'étiquettes prédéfinies.

L'une des applications courantes de l'apprentissage non supervisé est le clustering (ou la segmentation de données). Dans cette approche, un modèle apprend à segmenter les données en sous-ensembles similaires, appelés clusters, qui correspondent à des groupes naturels dans les données. Ce processus d'apprentissage permet au modèle de déterminer lui-même les classes, sans avoir à utiliser des étiquettes externes. Une autre approche d'apprentissage non supervisé est l'apprentissage de représentations, qui vise à décomposer les données brutes en informations utiles (le signal) et non utiles (le bruit). Cette approche inclut également la réduction de la dimensionnalité, qui permet de simplifier les données tout en conservant les informations essentielles, facilitant ainsi la visualisation et la gestion des données complexes. La compression des données est une approche connexe, où les données sont réduites à une dimension inférieure, mais peuvent être reconstruites à tout moment à partir des données compressées.

En outre, la modélisation générative permet de créer un modèle qui appréhende la distribution probabiliste des données. Ce modèle peut ensuite être utilisé pour générer de nouvelles données en échantillonnant cette distribution, ce qui a des applications intéressantes dans le domaine de la découverte de nouveaux médicaments. Il est important de noter que, bien que ces approches non supervisées puissent sembler plus abstraites, elles jouent un rôle fondamental dans l'extraction de modèles et de structures cachées dans les données qui peuvent ne pas être apparentes au premier abord.

Bien que l'apprentissage supervisé et non supervisé soient les bases de l'application de l'intelligence artificielle dans la découverte de médicaments, avant de pouvoir appliquer ces techniques, il est essentiel de comprendre ce qu'est une molécule et comment elle peut être représentée de manière adéquate pour l'analyse informatique. Une molécule est constituée de deux ou plusieurs atomes chimiquement liés entre eux par des liaisons covalentes, où les atomes partagent des électrons pour atteindre une configuration stable. Il existe aussi des liaisons non covalentes, qui sont des interactions électromagnétiques entre les atomes au sein d'une molécule et entre les molécules elles-mêmes, mais elles sont moins fortes que les liaisons covalentes.

Une représentation informatique courante des molécules est le SMILES (Simplified Molecular Input Line Entry System), qui est un langage simplifié permettant de représenter les structures chimiques sous forme de chaînes de caractères. SMILES est conçu de manière à ce que les chimistes puissent intuitivement comprendre la structure d'une molécule en lisant cette chaîne. Par exemple, la molécule de méthane (CH₄) peut être représentée par la simple lettre C, tandis que le dioxyde de carbone (CO₂) est représenté par O=C=O. SMILES utilise une série de règles grammaticales et de symboles pour décrire les liaisons et les atomes d'une molécule, facilitant ainsi leur traitement informatique.

La normalisation SMILES permet d'obtenir une représentation unique et standardisée d'une molécule, garantissant que des structures chimiquement équivalentes soient toujours représentées de la même manière, ce qui est crucial pour éviter toute ambiguïté dans les comparaisons de structures chimiques. Grâce à des algorithmes de canonisation, il est possible d'obtenir une version standardisée de la chaîne SMILES pour toute molécule donnée, indépendamment de la manière dont elle a été initialement écrite.

L'utilisation de ces représentations moléculaires est essentielle dans le contexte de l'apprentissage automatique pour la découverte de médicaments, car elles permettent de structurer les informations chimiques et de les rendre accessibles à des algorithmes d'apprentissage qui peuvent ensuite prédire des propriétés ou classer des molécules selon diverses catégories. Ces méthodes, basées sur l'apprentissage supervisé et non supervisé, sont au cœur des innovations récentes dans la découverte de médicaments, offrant de nouvelles perspectives pour l'identification et l'optimisation de composés pharmaceutiques.