Cuando se conoce un compuesto activo, una de las estrategias fundamentales en el descubrimiento de fármacos consiste en realizar una búsqueda por similitud, evaluando una biblioteca de compuestos con el fin de identificar aquellos que presentan propiedades o estructuras análogas al compuesto de referencia. Esta similitud estructural sugiere, con base en principios empíricos y estadísticos, una mayor probabilidad de actividad biológica comparable. Si disponemos de múltiples compuestos activos, no solo es posible realizar esta búsqueda por similitud directa, sino también llevar a cabo un análisis farmacofórico basado en ligandos.
El enfoque farmacofórico implica la generación de configuraciones tridimensionales posibles de los ligandos conocidos, buscando patrones estructurales recurrentes que representen los elementos clave responsables de su actividad. Estos patrones se convierten en modelos farmacofóricos que, al ser aplicados a la base de datos de compuestos, permiten detectar candidatos con características altamente puntuadas en función de la coincidencia estructural. La calidad del alineamiento tridimensional y la frecuencia de aparición de determinadas características contribuyen a definir la relevancia de los compuestos detectados.
El análisis se torna más sofisticado cuando disponemos de datos etiquetados que incluyen compuestos activos e inactivos. En este escenario, se abre la posibilidad de utilizar métodos de aprendizaje automático para inferir correlaciones cuantitativas entre la estructura molecular y la actividad biológica. A este tipo de modelos se les denomina modelos de relación cuantitativa estructura-actividad (QSAR), aunque no todos los QSAR son modelos de aprendizaje automático. Cuando el objetivo se amplía a propiedades generales más allá de la actividad biológica, como solubilidad, toxicidad o biodisponibilidad, se recurre al concepto más general de relaciones cuantitativas estructura-propiedad (QSPR).
La disponibilidad de compuestos de clase positiva y negativa permite construir modelos predictivos con mayor poder discriminante. Por el contrario, cuando solo se dispone de compuestos positivos, el enfoque se limita a estrategias de búsqueda, como la similitud estructural o la búsqueda farmacofórica. Un enfoque común y efectivo en la práctica es la estrategia jerárquica de cribado virtual. Este enfoque emplea múltiples métodos de forma secuencial, comenzando con filtros simples basados en reglas, como los que descartan compuestos con propiedades claramente indeseables, y avanzando hacia métodos más complejos como el cribado basado en ligandos o incluso simulaciones de acoplamiento proteína-ligando y dinámica molecular.
Los filtros compuestos, como la conocida regla de cinco de Lipinski, sirven como una primera barrera para eliminar moléculas que carecen de propiedades mínimas requeridas para su desarrollo como fármacos orales. Aunque son útiles para ahorrar recursos computacionales y experimentales, su rigidez puede llevar a la eliminación prematura de compuestos potencialmente útiles. Por ello, la estrategia de filtrado debe ser ajustada según la disponibilidad de expertos en química médica que puedan evaluar manualmente los descartes. En ausencia de este conocimiento especializado, se prefiere una estrategia de filtrado más laxa.
En la búsqueda de nuevos antimaláricos, se ha implementado una campaña de cribado virtual centrada en compuestos con actividad conocida contra Plasmodium falciparum, el parásito responsable de la forma más letal de malaria. Esta enfermedad sigue siendo una carga crítica en regiones tropicales, agravada por la capacidad del parásito de desarrollar resistencia a tratamientos existentes. La investigación se enfoca en atacar proteínas esenciales para la supervivencia y proliferación del parásito. Para identificar compuestos prometedores, se emplea una biblioteca diversa de más de 212,000 moléculas pequeñas disponibles a través de PubChem (repositorio SPECS), combinada con un conjunto de 400 compuestos activos recopilados en la Malaria Box.
A través de búsquedas por similitud estructural entre estas dos bases de datos, es posible detectar candidatos que comparten patrones relevantes con los compuestos activos conocidos. Esta estrategia se ve fortalecida por la posibilidad de adquirir fácilmente estos compuestos para validaciones posteriores, gracias a su disponibilidad comercial. Conjuntamente, el cribado farmacofórico, los filtros de propiedades ADMET y modelos predictivos QSAR contribuyen a refinar la selección de compuestos, asegurando no solo la actividad biológica deseada, sino también la viabilidad de su desarrollo como medicamentos.
El concepto de similitud no es trivial. Existen múltiples formas de representar una molécula ante un modelo computacional: descriptores moleculares, huellas digitales estructurales, modelos tridimensionales. Asimismo, existen distintos métricos para cuantificar dicha similitud, desde la distancia de Tanimoto basada en huellas digitales hasta métricas más complejas que capturan similitudes conformacionales o electrónicas. Cuando se cuenta con múltiples compuestos de referencia, el desafío radica en cómo combinar sus similitudes para priorizar nuevos candidatos. La estrategia de búsqueda debe ser capaz de adaptarse a futuros compuestos, integrarse con otras metodologías, y mantenerse flexible ante la diversidad de posibles representaciones moleculares.
Importa comprender que la similitud estructural no siempre se traduce en similitud funcional. Dos compuestos pueden compartir características superficiales pero diferir en su comportamiento biológico debido a factores como la conformación activa, la interacción con el blanco proteico o propiedades farmacocinéticas. Por tanto, toda estrategia de cribado virtual debe considerarse como una aproximación probabilística, no como una garantía de éxito. La validación experimental sigue siendo un componente ineludible del proceso.
¿Cómo la Inteligencia Artificial Está Transformando el Descubrimiento de Fármacos?
La búsqueda de nuevos fármacos ha sido históricamente un proceso arduo y costoso, involucrando la prueba de millones de compuestos antes de encontrar uno que pueda ser útil para el tratamiento de una enfermedad. En la actualidad, debido a los avances en inteligencia artificial (IA), se están desarrollando métodos más eficientes para automatizar este proceso y hacer frente a un espacio químico y biológico vasto y en gran parte inexplorado. En este contexto, la inteligencia artificial y el aprendizaje automático (ML) han emergido como herramientas fundamentales, proporcionando una ventaja significativa frente a las limitaciones de los enfoques experimentales tradicionales.
El valor primordial de la IA en el descubrimiento de fármacos radica en su capacidad para automatizar el proceso, utilizando la computación para reducir las barreras que representa la inmensidad de la búsqueda química y biológica. Un ejemplo ilustrativo de cómo funciona la IA en este campo es el uso de ML para ayudar a las computadoras a aprender a partir de datos y hacer predicciones sin ser programadas
¿Cómo los modelos generativos están revolucionando el diseño molecular en el descubrimiento de fármacos?
El proceso de descubrimiento de fármacos se puede comparar con la búsqueda de una aguja en un gigantesco pajar. Esta analogía ilustra los desafíos inherentes al desarrollo de nuevas terapias, un proceso marcado por altos costos, altas tasas de fracaso y una complejidad científica que parece insuperable. Al centro de este reto se encuentra el problema del diseño molecular: la necesidad de encontrar o crear una molécula con un conjunto específico de propiedades que le permita tratar una enfermedad de manera segura y efectiva. Tradicionalmente, la búsqueda de estos compuestos se ha visto limitada por la enorme complejidad de la "espacio químico", un universo de posibles moléculas que excede cualquier intento de exploración exhaustiva.
El objetivo de este capítulo es ofrecer una visión detallada de cómo los modelos generativos, y en particular los autoencoders, están ayudando a optimizar este proceso. Estos modelos permiten aprender una representación comprimida y continua del espacio químico, facilitando la creación de nuevas moléculas desde cero. Este enfoque elimina la necesidad de recorrer todo el vasto espacio químico y permite generar compuestos con las características deseadas de manera más rápida y eficiente.
La "búsqueda de moléculas diseñadas" es, en gran medida, una cuestión de navegar en un espacio químico masivo. El número de moléculas potencialmente útiles para la creación de fármacos se estima en cifras astronómicas que, incluso, superan el número de átomos en el universo observable. En este vasto espacio, los métodos tradicionales como el cribado de alto rendimiento (HTS) o el diseño racional se encuentran con obstáculos significativos. Si bien el HTS ha tenido éxitos, es costoso, lento y limitado por las bibliotecas de compuestos disponibles, lo que restringe las posibilidades de descubrimiento. Por su parte, el diseño racional, que se basa en el conocimiento detallado de los blancos biológicos, a menudo depende de la intuición humana y de ciclos iterativos lentos de diseño y prueba.
En este contexto, los modelos generativos han abierto nuevas posibilidades. Estos modelos aprenden los patrones y distribuciones subyacentes en un conjunto de datos dado y utilizan ese conocimiento para generar nuevas muestras de datos. En química, esto significa la creación de nuevas estructuras moleculares que pueden no existir en las bases de datos actuales. El diseño de novo, uno de los principales enfoques de los modelos generativos, permite la creación de nuevas moléculas desde cero, sin depender de compuestos preexistentes.
Un aspecto central de estos modelos generativos es la representación en un espacio latente. Este espacio es una forma comprimida del espacio químico, donde cada punto corresponde a una molécula de manera simplificada. Imagina un archivo comprimido ZIP de una molécula, donde la información esencial sobre su estructura química está contenida en un conjunto de coordenadas en lugar de una representación compleja y detallada de los átomos y enlaces. Esta compresión hace que sea mucho más fácil navegar y explorar posibles compuestos sin tener que procesar cada molécula de forma individual.
Sin embargo, los autoencoders tradicionales no siempre son eficaces en la generación de moléculas realmente novedosas, ya que tienden a limitarse a generar variaciones de las moléculas de entrenamiento sin proponer nuevos caminos. Para superar esto, los autoencoders variacionales (VAEs) utilizan un enfoque probabilístico que permite explorar de manera más dinámica el espacio latente, lo que facilita la generación de nuevas estructuras químicas. Este enfoque probabilístico permite generar moléculas de forma más creativa y menos determinística, lo que mejora la diversidad de las soluciones propuestas.
Para mejorar aún más la capacidad de estos modelos, se han incorporado técnicas avanzadas como las redes neuronales recurrentes (GRUs), el recocido cíclico y tokenizaciones sofisticadas. Estas herramientas permiten que los modelos generativos no solo aprendan patrones químicos básicos, sino que también puedan explorar de manera más eficiente el espacio de soluciones, generando compuestos con características deseables, como alta solubilidad, baja toxicidad y buena actividad biológica.
Los modelos generativos, especialmente aquellos que combinan VAEs y redes neuronales recurrentes, ofrecen una forma poderosa de abordar el desafío del diseño molecular. A medida que la capacidad de estos modelos evoluciona, podemos anticipar una era en la que la creación de fármacos será más rápida, menos costosa y, sobre todo, más eficiente. La capacidad de generar moléculas totalmente nuevas y adaptadas a necesidades terapéuticas específicas podría transformar la manera en que desarrollamos medicamentos, permitiendo un enfoque más dirigido y con menos pruebas en animales o en ensayos clínicos fallidos.
Para los lectores que se adentran en este campo, es crucial entender que, si bien los modelos generativos ofrecen una gran promesa, todavía existen desafíos importantes. El modelado preciso de las propiedades farmacológicas de las moléculas generadas es un área de investigación activa. Los modelos generativos deben ser capaces de generar no solo moléculas que sean químicamente viables, sino también aquellas que tengan una alta probabilidad de éxito en el contexto biológico y farmacológico. Además, el proceso de validación y refinamiento de estos modelos generativos es esencial, ya que la generación de moléculas novedosas debe ir acompañada de un proceso riguroso de prueba y ajuste para garantizar que estas moléculas realmente puedan funcionar como fármacos.
¿Cómo se estructuran y transforman los datos químicos para el descubrimiento de fármacos asistido por inteligencia artificial?
El proceso de descubrimiento de fármacos mediante inteligencia artificial requiere no solo algoritmos sofisticados, sino también una estructuración meticulosa de los datos químicos. Las bases de datos químicas modernas contienen millones de compuestos, muchos de ellos virtuales, diseñados computacionalmente pero aún no sintetizados. El valor de estos datos no reside únicamente en su volumen, sino en su calidad, estandarización y representación.
La representación más común de una molécula es a través de SMILES, una notación lineal compacta que permite describir la estructura de una molécula con un conjunto de caracteres. Esta notación, derivada de reglas gramaticales que modelan átomos y enlaces, facilita su manipulación computacional. A partir de SMILES surge SMARTS, una extensión utilizada para definir patrones subestructurales específicos, funcionando análogamente a expresiones regulares dentro del contexto molecular.
Uno de los pasos fundamentales en el tratamiento de datos químicos es la estandarización. Esta etapa transforma las moléculas para garantizar una representación coherente y comparable dentro del conjunto de datos. Se eliminan sales, disolventes y fragmentos menores, conservando el fragmento principal; se neutraliza la molécula, se normalizan los grupos funcionales, y se asigna o corrige la estereoquímica. Se evalúan también los tautómeros posibles, seleccionando el más estable como forma canónica, lo cual es esencial para evitar duplicados que perjudiquen la consistencia del modelo.
En el análisis estructural, los estereoisómeros presentan un reto particular: poseen la misma fórmula química y conectividad atómica, pero difieren en la disposición espacial de sus átomos. Esta diferencia puede resultar en variaciones drásticas en la actividad biológica, por lo cual su identificación y clasificación son imprescindibles en la etapa de modelado.
Durante la extracción de características moleculares, se utilizan claves estructurales como las MACCS keys, que representan la presencia o ausencia de subestructuras definidas en un vector binario. Existen versiones públicas y propietarias de estas claves, compuestas por 166 o 960 fragmentos respectivamente. Estas representaciones permiten que los modelos de machine learning trabajen sobre datos numéricos derivados de la estructura química.
La similitud molecular se evalúa mediante búsquedas por similitud, una técnica que permite identificar compuestos análogos a una molécula de referencia en una base de datos. Esto es especialmente útil en las etapas iniciales de cribado virtual (Virtual Screening), donde se priorizan los candidatos a fármaco que presentan mayores probabilidades de éxito con base en su similitud estructural o propiedades predichas.
Dentro del pipeline de Scikit-Learn, ampliamente utilizado en ciencia de datos, los transformers procesan los datos de entrada con operaciones como la imputación de valores ausentes, escalado de características o codificación de variables categóricas. La salida de cada transformer se encadena al siguiente, permitiendo una transformación sistemática antes de llegar al estimator, que representa el modelo de machine learning propiamente dicho, ya sea clasificador o regresor.
El entrenamiento del modelo implica encontrar la relación entre las características moleculares y la propiedad objetivo (como la actividad biológica). Durante esta fase, se optimizan funciones de coste o utilidad. Por ejemplo, el MSE (error cuadrático medio) es una función que se minimiza; al invertir su signo, puede utilizarse como función de utilidad que se desea maximizar, otorgando una métrica clara para la comparación de modelos.
Uno de los retos centrales es la selectividad, que evalúa cuán específico es un compuesto para un blanco molecular determinado. Una baja selectividad puede resultar en efectos adversos al afectar proteínas no deseadas. Esta medida se relaciona directamente con la seguridad del fármaco y su índice terapéutico, que cuantifica la distancia entre la dosis eficaz y la dosis tóxica. La toxicidad, por su parte, debe modelarse de forma explícita, ya que es una propiedad que puede invalidar un compuesto prometedor si no se detecta a tiempo.
La identificación de blancos terapéuticos se basa en establecer una relación causal entre una diana biomolecular y una enfermedad específica. Validar esta relación permite diseñar compuestos orientados a modular dicha diana, guiando así todo el proceso de descubrimiento. Una vez establecida esta conexión, se puede iniciar el cribado virtual para reducir significativamente el número de compuestos a probar experimentalmente.
Es esencial comprender que la escasez de datos sigue siendo una limitación crítica. Aunque existen repositorios como ChEMBL o ChEBI, la cobertura de todas las posibles dianas y compuestos es incompleta. Muchas líneas de investigación se desarrollan en contextos donde los datos son limitados, lo que impone la necesidad de enfoques robustos, técnicas de augmentación y una selección cuidadosa de representaciones moleculares. El diseño de fármacos asistido por IA no es un proceso puramente técnico; requiere una profunda comprensión de la química, biología y modelado computacional, integrados bajo una visión estratégica que maximice la utilidad de cada dato disponible.
¿Cómo se elige la predicción en la codificación de video y qué factores intervienen?
¿Cómo se ocultan las sombras del pasado en los recuerdos familiares?
¿Cómo las Innovaciones Digitales Transforman la Predicción del Clima y la Navegación Aérea?
¿Cómo limpiar el discurso público contaminado?
¿Cómo el 5G y la computación en la nube están transformando el futuro de las ciudades y la tecnología?
Consentimiento para el Tratamiento de Datos Personales
Programa de Química para el 8.º grado (clases B y M) del Liceo N.º 4 de la ciudad de Cheboksary
Compuestos de coordinación: teoría, problemas y aplicaciones en bioquímica
Reunión General de Padres: Seguridad Estival, Educación Laboral y Logros Creativos Escolares

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский