L'une des grandes avancées de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML) dans le domaine de la découverte de médicaments réside dans la capacité à automatiser la recherche de molécules, un défi traditionnellement complexe et coûteux. En effet, le nombre de molécules chimiques possibles dans l’espace de recherche est quasiment infini, et l'expérimentation directe de ces composés pourrait prendre des millions d’années. Par conséquent, la principale promesse de l'IA dans ce contexte est de réduire considérablement le temps nécessaire pour identifier des candidats médicamenteux prometteurs en combinant la puissance du calcul avec des méthodes prédictives.

L'un des grands avantages de l'apprentissage automatique est sa capacité à analyser rapidement des ensembles massifs de données et à en extraire des modèles prédictifs sans nécessiter de programmation explicite. Une analogie courante pour comprendre cela est l'entraînement d’un enfant à reconnaître des chiens dans des photos. Petit à petit, l’enfant apprend à identifier les caractéristiques d'un chien, jusqu'à pouvoir distinguer ces images des autres types de photos. De la même manière, en utilisant des données sur les propriétés des molécules, nous pouvons entraîner un modèle d'apprentissage automatique à reconnaître les caractéristiques des molécules efficaces en tant que médicaments, comme une affinité élevée pour une cible thérapeutique ou une faible toxicité.

Cependant, l'objectif de l'apprentissage automatique dans la découverte de médicaments ne se limite pas à une simple classification, comme dans l'exemple des chiens. Ce que nous cherchons à accomplir, c'est de prédire et de prioriser les composés chimiques en fonction de leurs propriétés pertinentes pour la découverte de médicaments. Le "Virtual Screening" (VS), ou criblage virtuel, est l'une des méthodes les plus utilisées dans ce domaine. Elle consiste à simuler les interactions d'un composé avec une cible thérapeutique pour prédire s'il possède les propriétés recherchées, telles qu'une bonne affinité de liaison ou une faible toxicité.

Les méthodes traditionnelles de criblage virtuel reposent sur des simulations des dynamiques moléculaires ou du docking moléculaire, qui sont des processus physiques et coûteux en termes de calcul. Ces techniques visent à trouver la conformation spatiale d’une molécule qui maximise son interaction avec une cible. Bien que très précises, ces méthodes sont lentes et nécessitent beaucoup de puissance de calcul, rendant leur application peu pratique pour un criblage à grande échelle.

En revanche, les approches basées sur l'apprentissage automatique permettent d’effectuer des prédictions de manière beaucoup plus rapide et moins coûteuse. Plutôt que de simuler chaque mouvement moléculaire, le modèle d'apprentissage automatique prédit directement les propriétés d'un composé, ce qui permet de tester des milliards de molécules par jour. Ce processus réduit considérablement le nombre de composés devant être testés expérimentalement, augmentant ainsi l'efficacité de la recherche.

Une autre approche prometteuse dans ce domaine est la chimie générative, qui utilise des modèles d'apprentissage automatique pour générer de nouvelles structures chimiques correspondant à des critères spécifiques. Contrairement au criblage virtuel classique, qui filtre une bibliothèque de composés déjà existants, la chimie générative crée de nouveaux candidats de médicaments en partant de zéro, basés sur les propriétés recherchées. Cette méthode repose sur la capacité des modèles d'apprentissage automatique à "apprendre" comment différentes propriétés fonctionnelles (comme la solubilité ou la toxicité) sont liées à la structure chimique des molécules. L'IA est alors capable de générer de nouvelles structures moléculaires qui possèdent les propriétés idéales pour un médicament.

Le processus de conception de médicaments dé-novo, où l’on génère de nouvelles molécules basées sur des critères fonctionnels prédéfinis, pourrait transformer la manière dont nous découvrons de nouveaux traitements. Si un modèle de chimie générative apprend comment les propriétés spécifiques (telles que la solubilité) se traduisent dans la structure chimique d'une molécule, il peut alors générer des composés qui non seulement remplissent ces critères, mais sont également totalement nouveaux et potentiellement plus efficaces que les médicaments existants.

L’une des difficultés majeures dans le secteur pharmaceutique est la diminution de l’efficacité de la recherche et développement, phénomène connu sous le nom de "Loi d'Eroom". Ce concept, qui représente l'opposé de la loi de Moore, montre que malgré les avancées technologiques, le nombre de nouveaux médicaments mis sur le marché pour chaque milliard de dollars investis en recherche diminue. Cela s'explique en partie par le manque de prise de risque dans les petites entreprises pharmaceutiques, qui privilégient souvent des médicaments de type "suivant" plutôt que d’investir dans des innovations radicales. Grâce aux approches d’IA, il est désormais possible d'explorer une gamme beaucoup plus large de possibilités, ce qui permet d'identifier des molécules plus innovantes, en dehors des sentiers battus.

Il est essentiel de souligner que bien que l'IA, en particulier l'apprentissage automatique et la chimie générative, offre une possibilité d'accélérer la découverte de médicaments, cela ne remplace pas l'expérimentation physique, qui reste indispensable pour valider les prédictions théoriques. En effet, bien que ces technologies permettent de réduire le nombre de tests nécessaires et de simuler certaines propriétés, la validation en laboratoire est cruciale pour confirmer l'efficacité et la sécurité des nouveaux médicaments. Ainsi, l'intégration de l'IA dans la recherche pharmaceutique ne constitue pas une solution miracle mais plutôt un outil puissant pour améliorer l'efficacité des processus de découverte.

L'impact des lois de la recherche et développement pharmaceutique : une nouvelle ère pour l'innovation médicamenteuse

L'observation selon laquelle le coût ajusté de l'inflation pour le développement de nouveaux médicaments double tous les neuf ans est un phénomène clé qui définit l'évolution du secteur pharmaceutique moderne. Cette dynamique, souvent qualifiée de "loi d'Eroom", reflète une réduction des rendements dans le développement de nouveaux médicaments. Parmi les facteurs contributifs, on trouve une tolérance au risque de plus en plus faible de la part des agences de régulation, un phénomène connu sous le nom de problème du "régulateur prudent", l'attitude consistant à "lancer de l'argent" sans réellement innover, et enfin la nécessité de démontrer des bénéfices plus importants que ceux des médicaments déjà existants, un phénomène décrit comme le problème du "meilleur que les Beatles". Le graphique illustrant cette tendance a été construit à partir des données de Scannell et al., qui explorent ce sujet en profondeur.

Le domaine chimique des composés similaires à des médicaments est d'une diversité incroyable, et il n'est pas toujours négatif de se concentrer sur quelques structures fiables. Par exemple, les structures privilégiées sont fréquemment retrouvées dans les ensembles actifs de molécules et montrent une capacité étonnante à se lier à de nombreuses cibles protéiques. Ces structures privilégiées servent de référence pour les chercheurs, qui peuvent s'attendre à ce qu'elles montrent une certaine activité. Un exemple classique de structure privilégiée est le noyau benzodiazépine. Ce cadre chimique apparaît dans des médicaments comme le diazépam (Valium) et l'alprazolam (Xanax), qui se lient aux récepteurs GABA (les récepteurs principaux du neurotransmetteur inhibiteur dans le cerveau), mais les composés dérivés de la benzodiazépine ont également montré de l'activité contre des cibles totalement différentes, telles que les récepteurs CCK (impliqués dans la digestion et l'anxiété), la transcriptase inverse du VIH-1 (une enzyme essentielle à la réplication du virus VIH) et divers récepteurs couplés aux protéines G (GPCR), une grande famille de récepteurs membranaires impliqués dans de nombreux processus physiologiques.

Naturellement, ces structures privilégiées peuvent être actives contre plusieurs cibles, et le fait de se lier à des cibles indésirables peut entraîner des effets secondaires. Par conséquent, les composés contenant des structures privilégiées peuvent être qualifiés de "promiscuous", c'est-à-dire de composés aux effets multiples. Un autre inconvénient de ces composés est qu'ils sont plus difficiles à breveter, en partie en raison de la recherche intensive sur ces structures et de la création de nombreux médicaments brevetés ayant des structures similaires.

Les médicaments novateurs sont moins susceptibles d'obtenir une approbation de la FDA, mais ils revêtent plus de valeur tant pour les patients (traitement de conditions médicales non prises en charge) que pour les intérêts des entreprises (breveter un composé inédit et éviter la concurrence des médicaments existants). Par ailleurs, les méthodes basées sur l'intelligence artificielle continuent de s'améliorer pour générer des candidats pré-optimisés, ce qui aide à réduire le risque associé à l'obtention d'une approbation de la FDA.

En ce qui concerne l'administration de la Food and Drug Administration (FDA), il convient de souligner que son rôle principal est de protéger la santé publique en contrôlant et en supervisant la sécurité et l'efficacité des aliments, des compléments alimentaires, des médicaments et d'autres produits similaires. L'approbation par la FDA est cruciale, car elle signifie qu'un médicament a été rigoureusement évalué en termes de sécurité et d'efficacité à travers des essais précliniques et cliniques, et qu'il répond aux normes réglementaires établies par l'agence. En l'absence de cette approbation, un médicament ne peut être commercialisé légalement aux États-Unis. Si l'on opère dans un autre marché, il est recommandé de se renseigner sur l'agence réglementaire correspondante à votre région d'intérêt.

Prenons l'exemple concret de la découverte d'antibiotiques. Le premier antibiotique, la pénicilline, a été découvert en 1928 et a contribué à une réduction significative des décès dus aux infections. Cependant, la découverte de nouveaux antibiotiques a stagné depuis les années 1990, ce qui pose problème compte tenu de l'augmentation de la résistance aux antibiotiques due à leur surutilisation et à leur mauvaise utilisation. Il est donc essentiel de trouver de nouvelles classes d'antibiotiques que les approches basées sur l'IA peuvent aider à découvrir. Dans une étude de Stokes et al., une telle approche a été développée en utilisant l'apprentissage profond pour découvrir de nouveaux antibiotiques et présenter un nouvel usage pour le composé préexistant Halicine, en tant qu'antibiotique structurellement novateur.

L'un des avantages des méthodes d'apprentissage profond qui contribuent à la découverte de nouveaux médicaments réside dans leur capacité à apprendre automatiquement les caractéristiques importantes des structures semblables à des médicaments. Les méthodes traditionnelles de criblage virtuel et de conception de novo reposent sur des caractéristiques chimiques fixes, créées manuellement. Ces caractéristiques peuvent aller de simples quantités comme le poids moléculaire et le nombre d'atomes ou de liaisons d'un certain type (atomes lourds, liaisons rotables, etc.) à des quantités plus complexes dérivées de l'énumération exhaustive de toutes les sous-structures possibles composant la structure complète de la molécule. Les caractéristiques conçues tentent de capturer les "motifs" présents dans les molécules semblables à des médicaments pour entraîner un modèle qui apprend la relation entre ces motifs et une propriété désirée, comme la probabilité de lésions hépatiques induites par des médicaments.

Cependant, l'ingénierie manuelle des caractéristiques est intrinsèquement limitée aux seules caractéristiques que nous savons être liées aux propriétés d'intérêt. Nous ne connaissons pas toutes les caractéristiques pertinentes pour une tâche comme la conception d'antibiotiques. Si nous le savions, nous pourrions déjà concevoir tous les antibactériens possibles. En revanche, l'apprentissage profond peut apprendre des caractéristiques optimales et spécifiques à la tâche dont la pertinence nous échappe, ce qui permet une recherche plus efficace et moins biaisée par rapport aux méthodes traditionnelles.

Le design de novo est une stratégie précieuse dans la conception assistée par ordinateur de médicaments, tout comme le criblage virtuel. En fonction des informations connues concernant la structure du composé (aussi appelé ligand) ou de la cible, nous pouvons décider quelle méthode utiliser. Nous pourrons également diviser le criblage virtuel en sous-ensembles basés sur le ligand et basés sur la structure. Le docking moléculaire et la simulation moléculaire sont des exemples de méthodes de criblage virtuel basées sur la structure. Nous explorerons les détails du criblage virtuel dans le chapitre 2, où nous construirons et comparerons différentes pipelines de criblage virtuel.

Une autre notion importante à comprendre est le rôle central de la rétrosynthèse dans le design de novo. La rétrosynthèse permet de travailler à partir du produit final connu et de revenir à un ensemble simple de réactants et d'opérations nécessaires pour produire ce produit. Bien que la rétrosynthèse offre davantage de possibilités pour découvrir des voies de synthèse fiables ou efficaces, elle présente aussi des défis considérables, notamment en raison de l'énorme complexité du domaine chimique à explorer.

Comment interpréter les poids dans la régression logistique et comprendre les arbres de décision pour la classification ?

Dans la régression logistique, contrairement à d'autres modèles, il n'existe pas de lien linéaire direct entre les caractéristiques et les résultats, car l'entrée est d'abord transformée par la fonction sigmoïde, qui compresse les valeurs en une probabilité. Pour interpréter les poids de ce modèle, il faut dissocier le signal de cette fonction sigmoïde. Une méthode efficace consiste à dériver les log-cotes, qui représentent le logarithme du rapport entre la probabilité de succès et celle de l'échec. Lorsque le poids d'une caractéristique est positif, une augmentation de sa valeur entraînera une hausse du log-cote, ce qui signifie que les cotes de P(y=1)P(y=1) par rapport à P(y=0)P(y=0) augmenteront. Inversement, pour une caractéristique avec un poids négatif, son augmentation réduira les chances prédites d'un événement de succès, comme dans le cas de la liaison cible-ligand.

À partir de ces log-cotes, il est possible de calculer le rapport des cotes (odds ratio). Ce dernier compare les résultats obtenus quand une caractéristique est augmentée d'une unité par rapport à l'état initial où elle reste inchangée. Par exemple, si le poids d'une caractéristique est de 0,45, une augmentation de cette caractéristique de 1 unité multipliera les cotes par exp(0.45)=1,57\exp(0.45) = 1,57, ce qui correspond à une augmentation de 57 % des chances qu'une molécule soit un inhibiteur, selon le modèle, en supposant que toutes les autres caractéristiques restent constantes.

Les modèles basés sur les arbres de décision offrent une approche différente pour résoudre des problèmes de classification. Ces modèles sont non paramétriques et utilisent des arbres décisionnels, qui peuvent être vus comme des organigrammes permettant de diviser un problème complexe en séries de décisions simples. Chaque nœud dans un arbre de décision représente un choix basé sur une caractéristique particulière, et l'objectif est de parvenir à une feuille où le modèle fait sa prédiction finale.

Les arbres de décision sont un excellent moyen de comprendre le processus de décision d'un modèle, car ils sont très visuels. En entraînant un arbre de décision sur un ensemble de données donné, on peut visualiser la structure de l'arbre et suivre les étapes de son raisonnement. Par exemple, à chaque nœud de l'arbre, une question est posée, comme « La valeur de logP est-elle inférieure ou égale à 2,294 ? ». Selon la réponse, les molécules sont orientées vers des sous-branches, jusqu'à ce qu'une feuille soit atteinte et que la classe prédite soit attribuée.

L'un des avantages majeurs des arbres de décision est leur capacité à être facilement interprétés. On peut visualiser le raisonnement du modèle, ce qui offre plus de transparence pour comprendre ses erreurs éventuelles. De plus, les arbres de décision effectuent automatiquement une sélection de caractéristiques, ce qui permet de repérer les variables les plus importantes pour la décision, notamment celles utilisées en premier.

Les arbres de décision présentent également des avantages pratiques : ils peuvent traiter à la fois des données numériques et catégorielles, ne nécessitent pas de prétraitement complexe (comme la normalisation ou la mise à l'échelle des données), et sont capables de gérer les relations non linéaires ainsi que les valeurs manquantes. Bien que dans ce cas, l'arbre soit utilisé pour une classification, il existe des variantes comme l'algorithme de régression par arbre de décision, qui est utilisé pour des tâches de régression.

Le processus de construction d'un arbre de décision repose sur un algorithme de recherche gloutonne et top-down à travers les différentes options possibles pour diviser les données. Chaque étape de l'apprentissage du modèle consiste à choisir la meilleure caractéristique pour diviser les données en sous-groupes distincts. Les critères d'évaluation utilisés pour définir la "meilleure séparation" sont souvent l'impureté de Gini ou l'entropie. Après chaque division, l'algorithme continue à affiner les décisions, en répétant ce processus jusqu'à ce qu'une condition d'arrêt soit atteinte, comme un nombre minimum d'exemples par nœud ou une profondeur maximale de l'arbre.

Les arbres de décision, bien que simples à comprendre, offrent un compromis intéressant entre interprétabilité et puissance de modélisation. Ils peuvent être utilisés efficacement pour de nombreuses applications, en particulier lorsqu'une compréhension transparente du processus de décision est nécessaire. Toutefois, ils peuvent aussi souffrir de surapprentissage (overfitting), surtout lorsqu'ils sont trop profonds ou que les données contiennent des bruits importants.

En complément de ce modèle, il est essentiel de rappeler que bien que les arbres de décision soient intuitivement attrayants, ils nécessitent parfois un réglage minutieux des hyperparamètres (comme la profondeur maximale de l'arbre ou le nombre minimum d'échantillons par feuille) pour éviter une complexité excessive. De plus, les modèles en forêt (comme les forêts aléatoires) peuvent souvent surmonter certaines limitations des arbres de décision individuels, en combinant plusieurs arbres pour améliorer la robustesse et la généralisation du modèle.

Comment préparer des structures 3D pour le docking moléculaire : Étapes essentielles et processus de prétraitement

Dans le cadre de la modélisation moléculaire et du docking, la préparation des structures 3D des molécules est une étape cruciale pour garantir la fiabilité des résultats. Lorsque l'on travaille avec des protéines et des ligands, il est nécessaire de les séparer en fichiers PDB distincts afin de les soumettre à des simulations de docking. Cependant, ce processus va au-delà de la simple extraction des structures. Plusieurs étapes de nettoyage, de correction et de préparation doivent être effectuées pour que les structures soient prêtes pour les calculs.

Tout d'abord, dans les expériences de docking traditionnelles, on se concentre généralement sur un site de liaison connu, qui a été déterminé expérimentalement et répertorié dans la base de données PDB (Protein Data Bank). Mais que faire si le site de liaison est inconnu ? Dans le cas du blind docking, où le site de liaison est inconnu, il est nécessaire de considérer toute la surface de la protéine. Cela implique de préparer les structures 3D du ligand et de la protéine, de manière à les isoler correctement et à garantir qu'elles soient prêtes pour une exploration complète de la surface de la protéine.

Pour ce faire, nous devons extraire les atomes de la protéine et du ligand des fichiers PDB, puis les sauvegarder sous des fichiers séparés. L'utilisation de la bibliothèque MDTraj permet d'isoler les indices correspondant à la protéine et au ligand, comme montré dans l'exemple suivant. Avec MDTraj, le fichier PDB est chargé, et un objet Trajectory est créé, contenant les coordonnées 3D de tous les atomes ainsi qu'un objet de topologie décrivant la manière dont les atomes sont connectés. En utilisant des sélections appropriées, nous pouvons extraire les atomes qui appartiennent à la protéine et au ligand, puis les enregistrer dans des fichiers distincts.

Cependant, cette étape d'extraction et d'enregistrement n'est que le début. Avant de pouvoir effectuer le docking proprement dit, il est essentiel de procéder à des étapes de prétraitement supplémentaires, tant pour la protéine que pour le ligand. Ces étapes garantissent que les structures soient complètes et qu'aucune erreur ou donnée manquante ne compromette les simulations.

La classe Preprocessor est un outil clé dans ce processus. Elle permet de prendre en charge les étapes de préparation des molécules, en appliquant une série de corrections automatiques aux fichiers PDB des protéines, grâce à des outils comme PDBFixer et OpenMM. Ces outils se chargent de réparer les erreurs dans la structure de la protéine et d'ajouter des atomes ou des résidus manquants, ce qui est une étape courante étant donné que les fichiers PDB peuvent contenir des erreurs ou des segments manquants. Ces réparations incluent la gestion des résidus manquants, l'ajout de résidus non standard ou l'élimination de molécules hétérogènes (comme les molécules de solvant ou d'ions). De plus, l'ajout d'atomes manquants, comme les atomes d'hydrogène, est essentiel pour garantir que la structure soit prête pour les calculs de docking.

Le processus de réparation est effectué de manière ordonnée : les segments manquants sont d'abord ajoutés (car ils affectent la structure globale), suivis de la gestion des résidus non standard (qui influencent la chimie locale), puis l'ajout des atomes manquants et des hydrogènes. Ces dernières étapes sont particulièrement importantes, car les atomes d'hydrogène et les interactions ioniques jouent un rôle crucial dans les liaisons entre les médicaments et leurs cibles. Il est également essentiel de tenir compte du pH lors de l'ajout des hydrogènes, car le pH influence l'état de protonation des acides aminés et donc la nature des liaisons.

Une fois que ces étapes sont terminées, la structure de la protéine est prête à être utilisée pour le docking. Cela implique de sauvegarder la protéine sous un format compatible, tel que le format PDBQT, qui est spécifiquement conçu pour les calculs de docking. Le même processus de préparation est également appliqué au ligand, garantissant qu'il est dans un format adapté pour l'analyse.

Il est important de noter que la préparation des molécules n'est pas simplement une question de nettoyage des structures. Cette étape de prétraitement affecte directement la précision et la reproductibilité des résultats du docking. Une structure mal préparée peut conduire à des erreurs de simulation, des résultats biaisés ou des prédictions incorrectes sur les sites de liaison et les affinités des ligands.

En outre, bien que l'exemple présenté se concentre sur la préparation des structures à l'aide de bibliothèques Python, il existe d'autres outils et méthodes disponibles pour ce processus. Il est essentiel de bien comprendre le rôle de chaque étape et d'ajuster les paramètres en fonction des besoins spécifiques de l'expérience. Par exemple, dans certains cas, il peut être nécessaire de réaliser des ajustements manuels ou d'utiliser des outils supplémentaires pour résoudre des problèmes spécifiques rencontrés avec certaines structures de protéines ou de ligands.

Enfin, bien que ce processus semble technique, il est crucial pour garantir que les simulations de docking soient réalistes et reproductibles. La préparation correcte des structures moléculaires est une base essentielle pour toute étude de docking réussie.

Comment construire un autoencodeur pour la représentation des molécules avec une tokenisation de niveau caractère ?

La tokenisation de niveau caractère, en dépit de ses limitations, reste un choix populaire dans le traitement des chaînes SMILES en chimie. Cette méthode repose sur un vocabulaire limité, généralement inférieur à 50 caractères dans de nombreux ensembles de données SMILES, ce qui permet de minimiser les problèmes d'out-of-vocabulary. Cependant, bien que cette approche soit simple et efficace pour la représentation des molécules, elle comporte des défis notables. Tout d'abord, les séquences plus longues nécessitent davantage de tokens pour une même molécule, ce qui augmente la charge computationnelle, car la génération de la molécule se fait caractère par caractère, contrairement à des méthodes de tokenisation par mots ou sous-mots, qui permettent un traitement plus rapide. En outre, la tokenisation au niveau des caractères ne capture pas toutes les subtilités du sens chimique, ce qui peut limiter la compréhension sémantique des modèles basés sur ces représentations. Malgré cela, cette méthode constitue un point de départ simple et suffisant pour les premières étapes du travail.

L’architecture de l’autoencodeur repose sur un design classique d'encodeur-décodeur, où un "goulot d'étranglement" se situe au centre, réduisant l'information avant de la restituer sous une forme compressée. Cette approche peut être comparée à un sablier : large en haut (entrée), étroit au centre (espace latent), puis à nouveau large en bas (sortie). Le rôle principal de l’encodeur est de prendre une séquence de tokens, généralement issue de la chaîne SMILES, et de la convertir en un vecteur dense.

Le premier élément clé du processus est la couche d’"embedding" qui transforme chaque token en un vecteur dense. Cette couche utilise une table de correspondance apprentissable qui associe chaque index de token à un vecteur de dimension spécifiée (souvent appelée "embed_dim"). Les vecteurs d'embedding sont appris lors de l’entraînement, permettant ainsi à chaque token d’être représenté par un vecteur dans un espace de dimension réduite, riche en informations. Par exemple, les atomes chimiquement similaires tendent à avoir des vecteurs d’embedding proches les uns des autres, ce qui permet au modèle de capturer des relations chimiques et structurelles dans les molécules. De plus, la dimension de l’embedding (embed_dim) représente un paramètre clé qui équilibre l’expressivité du modèle et son efficacité computationnelle.

Les séquences de vecteurs obtenus à partir des tokens sont ensuite aplaties en un vecteur unique, qui est ensuite transmis à l’encodeur. Ce dernier va progressivement compresser l’information, réduisant sa dimension tout en essayant de conserver les caractéristiques moléculaires importantes. Si l'on envisage une molécule composée de 100 tokens, après l'étape d’embedding, la séquence de ces 100 tokens devient un vecteur de taille 100×128, soit 12 800 éléments. Une fois compressée par l'encodeur, cette séquence est réduite à une taille beaucoup plus petite, par exemple 64 dimensions. Ce processus permet une compression significative de l’information, souvent dans un rapport de 200:1, et facilite la représentation efficace des molécules dans l’espace latent.

Pourquoi ne pas utiliser l'encodage "one-hot" ? Si l'on utilisait un encodage one-hot, chaque token serait représenté par un vecteur long et éparse, où chaque position correspondrait à un seul token du vocabulaire. Ce vecteur serait extrêmement peu dense, ce qui engendrerait des problèmes de performance dans le traitement. L'un des problèmes majeurs de l'encodage one-hot est la grande dimensionnalité et la sparsité des vecteurs, rendant leur traitement computationnellement coûteux. De plus, cet encodage ne permet pas de capturer les relations sémantiques entre les tokens. Par exemple, le vecteur one-hot de l'atome de carbone (C) serait aussi éloigné de celui de l'azote (N) que de celui d'une parenthèse '(' qui a un rôle structurel complètement différent. En revanche, les embeddings apprennent directement ces relations sémantiques, permettant au modèle de mieux saisir les similitudes et les structures chimiques.

L’encodeur ne se contente pas de réduire la dimensionnalité ; il apprend à extraire les caractéristiques les plus pertinentes de chaque molécule. Il est constitué de plusieurs couches entièrement connectées qui réduisent progressivement la taille des vecteurs tout en conservant les informations chimiques cruciales. Ces couches utilisent des fonctions d’activation comme ReLU, la normalisation de lot (BatchNorm1d), et la régularisation par "dropout", pour éviter le surapprentissage et stabiliser l’entraînement.

Le décodeur suit un principe similaire à l’encodeur, mais dans l’ordre inverse : à partir de l'espace latent comprimé, il va reconstruire la séquence originale de tokens, en l’étendant progressivement jusqu’à obtenir une représentation fidèle de la molécule d'origine. Ce processus est également composé de couches entièrement connectées, mais avec un objectif opposé : élargir les vecteurs jusqu'à la taille des séquences d'entrée.

Il est essentiel de noter que l'efficacité de l'autoencodeur dépend en grande partie de l'optimisation de la taille et de la structure de son espace latent. Un espace latent trop petit risque de ne pas capturer suffisamment d'informations, tandis qu'un espace trop grand pourrait mener à une surparamétrisation et à une perte d'efficacité. L'ajustement de ces paramètres est un aspect fondamental de l’entraînement du modèle. En outre, bien que les autoencodeurs soient des modèles puissants pour la compression de données, ils ne sont pas à l'abri de certains défis, notamment en ce qui concerne la préservation d'informations sémantiques complexes dans des domaines comme la chimie. L'extraction des bonnes caractéristiques de la structure moléculaire nécessite une attention particulière à la structure du réseau et aux hyperparamètres du modèle.