El cribado virtual es una alternativa computacional al cribado experimental de alto rendimiento en laboratorio. Si bien los avances en robótica y miniaturización han permitido que las instalaciones de alto rendimiento generen grandes cantidades de datos experimentales y prueben hasta millones de compuestos en un tiempo razonable, el cribado experimental sigue siendo costoso cuando se trata de ensayos complejos. Sin embargo, podemos utilizar los datos generados por estos cribados de alto rendimiento para entrenar modelos de aprendizaje automático, lo que nos permite realizar cribados virtuales a gran escala y de manera más asequible. Esta estrategia computacional permite evaluar una biblioteca de compuestos químicos y seleccionar un subconjunto para su posterior prueba experimental.

La clave de un cribado virtual exitoso es priorizar un subconjunto altamente enriquecido, donde una mayor proporción de compuestos activos sea recuperada temprano en el proceso de cribado, en comparación con una selección aleatoria. Cuanto mayor sea la enriquecimiento, mayor será la reducción de costos mediante un cribado experimental más enfocado. En este capítulo, profundizaremos en las estrategias de cribado virtual basadas en ligandos, utilizando filtros de compuestos y métodos de búsqueda por similitud para identificar compuestos potenciales con actividad antipalúdica.

La taxonomía del cribado virtual se puede dividir en varias categorías dependiendo de la información disponible sobre el objetivo y su estructura tridimensional. Si tenemos acceso a la estructura 3D del objetivo, podemos realizar métodos basados en la estructura, como el acoplamiento proteína-ligando. Sin embargo, si la estructura 3D no está disponible, debemos recurrir a métodos basados en ligandos. Esto nos limita a cribados basados únicamente en la estructura de los ligandos, lo cual es adecuado en escenarios donde no contamos con información detallada sobre el objetivo.

El cribado basado en ligandos es particularmente útil cuando se dispone de una sola molécula activa para empezar. Este enfoque permite explorar un amplio espectro de compuestos similares a partir de la molécula inicial, utilizando métodos de búsqueda por similitud. Estos métodos se basan en el principio de que compuestos con estructuras moleculares similares tienen una mayor probabilidad de tener actividades biológicas similares. Para lograrlo, se utilizan algoritmos de comparación estructural que evalúan la similitud entre compuestos con el objetivo de identificar aquellos que puedan interactuar de manera efectiva con el objetivo biológico, en este caso, una proteína relacionada con la malaria.

Además del cribado por similitud, otro componente clave del cribado virtual basado en ligandos es el filtrado de compuestos. El filtrado tiene como objetivo eliminar aquellos compuestos que no cumplan con ciertas propiedades deseables, como la bioactividad, la solubilidad y la estabilidad, entre otras. Para esto, se emplean reglas como la Regla de Cinco de Lipinski, que establece criterios básicos sobre el peso molecular, la lipofilia y la capacidad de formar enlaces de hidrógeno, entre otros factores. Estas reglas permiten filtrar compuestos que no cumplen con los requisitos mínimos para ser considerados como fármacos viables.

El proceso de cribado virtual, por tanto, no solo se limita a la selección de compuestos, sino que también involucra una profunda comprensión de las propiedades de los mismos, así como su potencial para interactuar con los objetivos terapéuticos. Esto significa que, además de la búsqueda por similitud, es fundamental aplicar filtros de compuestos que aseguren que solo los más prometedores sean seleccionados para su análisis posterior. Esto optimiza no solo la eficacia de la búsqueda, sino también los costos asociados al proceso.

Por otro lado, si se tiene información suficiente sobre la estructura del objetivo (por ejemplo, proteínas o enzimas relacionadas con enfermedades), el cribado virtual basado en ligandos puede complementarse con técnicas como el acoplamiento molecular, que permite evaluar la interacción entre un ligando y su objetivo. Sin embargo, estas técnicas son más complejas y costosas computacionalmente, por lo que suelen ser aplicadas en etapas posteriores del proceso de descubrimiento de fármacos.

Es importante resaltar que, aunque el cribado virtual es una herramienta poderosa, no sustituye los experimentos de laboratorio. Al contrario, su principal objetivo es reducir el número de compuestos que deben ser evaluados experimentalmente, concentrándose en aquellos con mayor probabilidad de éxito. Además, la integración de modelos de aprendizaje automático con los datos obtenidos de cribados virtuales puede acelerar significativamente el proceso, ayudando a predecir qué compuestos tienen más probabilidades de ser efectivos en ensayos clínicos.

Finalmente, un aspecto crucial en el cribado virtual es la calidad de los datos disponibles. El acceso a bibliotecas de compuestos químicamente bien definidas y a datos de alta calidad sobre las estructuras de los objetivos es esencial para que los métodos de cribado sean efectivos. Si los datos de entrada son erróneos o incompletos, las predicciones obtenidas a través del cribado virtual serán igualmente inexactas. Por lo tanto, contar con una base de datos sólida es indispensable para la éxito del proceso.

¿Cómo predecir la actividad de bloqueo de hERG en compuestos farmacológicos mediante modelos de aprendizaje automático?

En el ámbito del descubrimiento de fármacos, la predicción de propiedades biológicas y físico-químicas de compuestos es esencial para optimizar los procesos de desarrollo y reducir los costos. Uno de los aspectos clave a predecir es la interacción de los compuestos con canales iónicos como el hERG (human Ether-à-go-go-Related Gene), cuyo bloqueo puede ser responsable de efectos cardíacos adversos. La cuestión es cómo predecir esta actividad de bloqueo utilizando modelos matemáticos, sin necesidad de realizar pruebas experimentales costosas y lentas para cada compuesto.

El conjunto de todas las entradas posibles es el espacio químico completo de compuestos similares a fármacos, mientras que el conjunto de todas las salidas posibles es una determinación sencilla de "sí" o "no" sobre si un compuesto dado bloquea o no el hERG. Cada compuesto individual, x, se representa mediante características moleculares que podrían ayudar a predecir si promoverá el bloqueo de hERG. Estas características pueden incluir descriptores moleculares, como el peso molecular o el LogP, huellas estructurales que codifican la presencia de subestructuras, u otra información numérica que se sospecha podría correlacionarse con la actividad hERG. Los datos se organizan en pares de ejemplos de entrada y salida, (x₁, y₁), …, (xₙ, yₙ), donde cada yₙ representa la actividad hERG experimentalmente determinada para cada compuesto xₙ. En este contexto, y=1 indica que el compuesto bloquea hERG, mientras que y=0 indica que no lo bloquea.

Este problema puede definirse formalmente como una función matemática f: X → Y, donde X es el espacio completo de compuestos similares a fármacos y Y es el conjunto de salidas posibles ("sí" o "no" al bloqueo de hERG). La función f representa la solución a nuestro problema, y se la denomina función objetivo. La función objetivo representa la verdad fundamental, es decir, el conocimiento real sobre si un compuesto bloquea o no hERG. Si conociéramos f de antemano, no sería necesario entrenar un modelo. Sin embargo, como f es desconocida, debemos intentar aproximarla mediante un modelo entrenado a partir de un conjunto limitado de datos de entrenamiento.

La idea es entrenar un modelo que mapee nuestras entradas a una salida predicha. El objetivo es que el modelo entrene de manera precisa con los datos históricos disponibles, mientras generaliza correctamente para compuestos nuevos que no han sido parte del conjunto de entrenamiento. El propósito es crear una herramienta computacional que permita realizar una selección rápida de grandes bibliotecas de compuestos para detectar posibles problemas de toxicidad relacionados con el hERG, sin requerir pruebas experimentales costosas para cada uno de ellos.

Este enfoque no solo se aplica a la predicción del bloqueo de hERG, sino que es la base de la predicción de casi todas las propiedades estructurales en el descubrimiento de fármacos. Ya sea para predecir afinidad de unión, solubilidad o estabilidad metabólica, el enfoque fundamental sigue siendo el mismo: mapear las estructuras químicas a propiedades biológicas o físico-químicas. Sin embargo, los descriptores y modelos específicos se ajustan según la tarea de predicción.

Un aspecto crucial en este proceso es que el conjunto de datos de entrenamiento representa una instantánea muestreada de todo el espacio de compuestos. Dependiendo de cómo se obtuvo el conjunto de datos, la porción del espacio químico a la que el modelo está expuesto puede variar considerablemente. Por lo tanto, confiamos en que el modelo entrenado será preciso en las áreas donde no tenemos datos de entrenamiento, bajo la suposición de que la distribución de los datos de entrenamiento se asemeja a la distribución de la función objetivo. Cuantos más datos tengamos, más probable es que estas suposiciones se cumplan y que el modelo sea eficaz.

El proceso de entrenamiento de un modelo de aprendizaje automático (ML) requiere comprender los conceptos básicos de su funcionamiento. Durante el entrenamiento, el modelo ingiere los datos de entrenamiento codificados como características y aprende a mapear estas características a la propiedad que queremos predecir. El modelo está gobernado por un conjunto de parámetros o pesos, que son valores reales que expresan la importancia de las entradas del modelo en relación con su salida. Los pesos del modelo determinan cómo se mapean las características de entrada a las predicciones de salida, y el valor de cada peso influye en el rendimiento del modelo. Si las predicciones son incorrectas, como es probable que suceda al principio, el modelo requiere un mecanismo que le permita aprender de la experiencia y ajustar sus pesos para mejorar su rendimiento.

El proceso de aprendizaje implica optimizar los pesos del modelo paramétrico para lograr predicciones precisas tanto en los datos de entrenamiento como en los datos nuevos, previamente no vistos. Cada posible combinación de valores de peso representa una función hipotética diferente. A medida que entrenamos el modelo, ajustamos iterativamente los valores de estos pesos para mejorar las predicciones. Este proceso se guía por un algoritmo de aprendizaje que ajusta los pesos en la dirección que minimiza el error del modelo, lo que se logra utilizando una función de pérdida y una función de optimización.

En este contexto, la función de pérdida mide el error entre la salida predicha y la salida real, representando una penalización por el error en cada instancia de datos. La función de optimización utiliza la función de pérdida para medir el error global a lo largo de todo el conjunto de datos y ajusta los pesos en consecuencia. Con cada iteración, el modelo se ajusta y mejora su precisión.

Cuando el modelo alcanza su estado final de entrenamiento, ya no se ajustan más los pesos, y el modelo se congela. En la fase de inferencia, el modelo se expone a nuevos datos y genera predicciones sin aprender ni modificar sus parámetros.

Es importante entender que la calidad del modelo final depende en gran medida de la calidad y la representatividad de los datos de entrenamiento. A medida que el campo de la química medicinal y el descubrimiento de fármacos avanza, la disponibilidad de grandes volúmenes de datos experimentales y la mejora de las técnicas de modelado permitirán a los investigadores desarrollar modelos cada vez más precisos y confiables.

¿Cómo manejar la distribución y los outliers en datos de solubilidad para modelos de predicción?

La validación en modelos predictivos puede resultar excesivamente optimista, ya que se lleva a cabo sobre moléculas que son altamente similares a aquellas que el modelo encontró durante su entrenamiento. La estrategia comúnmente utilizada para dividir los datos en conjuntos de entrenamiento y validación es el "scaffold splitting", especialmente cuando se trabaja con bases de datos químicas. El objetivo principal de esta técnica es separar los datos según los esqueletos de las moléculas, de manera que se preserve la similitud estructural o química entre los compuestos dentro de cada conjunto. Un scaffold es una estructura central que forma la base de diversos compuestos químicos, sirviendo como un elemento estructural común compartido entre ellos.

El "scaffold splitting" es particularmente útil para mantener la diversidad química, garantizando que el modelo sea evaluado sobre compuestos estructuralmente diferentes a los usados en el entrenamiento. Esta técnica tiende a ofrecer un reto mayor que las particiones aleatorias de los mismos datos, ya que se asegura de que las moléculas en el conjunto de validación no sean simplemente versiones modificadas o derivadas de las que ya ha aprendido el modelo. Es importante tener en cuenta que al realizar una partición de este tipo, se asegura que las moléculas en el conjunto de validación son, en su mayoría, diferentes en su estructura a las utilizadas en el entrenamiento, lo que hace que la evaluación sea más rigurosa y representativa del desempeño real del modelo.

Además, es esencial revisar las distribuciones de las variables objetivo, en este caso, la solubilidad acuosa, que se representa mediante el valor logS (logaritmo de la solubilidad molar). Este valor tiene una distribución no normal y abarca un amplio rango, desde -13 hasta 2.5. Un rango tan amplio indica la presencia de valores atípicos o compuestos con propiedades fisicoquímicas inusuales, las cuales son poco frecuentes en los entornos típicos de descubrimiento de fármacos. En contextos más convencionales, el rango dinámico de la solubilidad generalmente no excede los 3 logs, que corresponden a un intervalo de valores de solubilidad entre 1 μM y 1 mM, y las moléculas con logS menores a -6 son consideradas con baja solubilidad, lo que plantea retos de bioaccesibilidad.

Los valores atípicos en los datos son un problema común, ya que son valores extremos que no se esperan encontrar en escenarios de producción y cuya presencia puede afectar negativamente la capacidad del modelo para aprender patrones significativos. Existen diversas formas de tratar con estos outliers. Por ejemplo, el uso de métodos estadísticos como el rango intercuartílico (IQR) es común, donde se calculan los percentiles 25 y 75 de los valores de solubilidad, y cualquier dato que esté por fuera del rango definido por el IQR es marcado como un posible outlier. Alternativamente, se puede recurrir al conocimiento químico para identificar y eliminar algunos outliers. Por ejemplo, si un compuesto presenta una solubilidad extremadamente baja o alta, podría ser una señal de que está fuera del contexto típico de la química farmacéutica, como en el caso de elementos tóxicos o compuestos metálicos.

El tratamiento de los outliers no debe ser únicamente un proceso estadístico; a veces, la inspección manual y el juicio experto son esenciales. Es crucial decidir si un valor atípico representa una muestra genuina de la población esperada que el modelo debe abordar, o si es simplemente un caso espurio que debe ser eliminado para evitar que distorsione el modelo. El trabajo con estos datos, especialmente los extremos, es fundamental para garantizar que el modelo no aprenda patrones incorrectos ni se vea influenciado por datos irrelevantes.

La distribución de los datos también juega un papel crucial en la efectividad de un modelo. Al asumir que los datos no vistos provienen de una distribución similar a los datos de entrenamiento, se puede usar el modelo para predecir con confianza. Sin embargo, esto no siempre es el caso. El "cambio de distribución" o "distribution shift" es un fenómeno donde las distribuciones de las variables objetivo en el conjunto de datos de entrenamiento no coinciden con las distribuciones de los datos no vistos. Un ejemplo de esto es el "label shift", que ocurre cuando la distribución de los valores de la variable objetivo en el conjunto de entrenamiento es diferente de la distribución en el conjunto de prueba. Esto puede afectar la precisión del modelo y debe ser tenido en cuenta al elegir qué modelo de Machine Learning utilizar, ya que algunos modelos pueden ser mejores para extrapolar que otros.

Además de estos aspectos, el cálculo de los descriptores moleculares es un paso fundamental. RDKit, por ejemplo, ofrece herramientas para calcular una amplia variedad de descriptores que ayudan a caracterizar las propiedades fisicoquímicas de las moléculas, como el peso molecular, la polaridad, y la cantidad de enlaces de hidrógeno. Estos descriptores son claves no solo para entrenar el modelo, sino también para interpretar cómo las distintas características de las moléculas pueden influir en su comportamiento en cuanto a solubilidad, y cómo estos descriptores se correlacionan con la variable objetivo.

Los descriptores y la correlación entre ellos no solo sirven para mejorar la capacidad predictiva de un modelo, sino también para comprender mejor las interacciones y relaciones dentro de los datos. Cada descriptor proporciona una visión de las características químicas que afectan el comportamiento de las moléculas, lo que puede ofrecer información valiosa sobre el diseño de nuevos compuestos con características deseables.

¿Cómo influye la calibración en la interpretación de los resultados en modelos probabilísticos?

El proceso de calibración en modelos probabilísticos es crucial, especialmente en áreas tan complejas como el descubrimiento de fármacos. Los modelos de regresión logística, que a menudo se utilizan en este contexto, proporcionan probabilidades predichas que, en un escenario ideal, deberían reflejar la certeza del modelo sobre un evento. Por ejemplo, si un modelo predice una probabilidad del 0.8 para un evento, esto debería interpretarse como una confianza del 80% en que el compuesto pertenece a la clase positiva. Sin embargo, en la práctica, esta probabilidad no siempre refleja con precisión la certeza del modelo, lo que puede dar lugar a decisiones incorrectas, como excluir compuestos prometedores basados en predicciones de toxicidad erróneas.

Un modelo correctamente calibrado no solo genera predicciones, sino que también permite interpretar con confianza los umbrales de probabilidad establecidos. Por ejemplo, un compuesto con una probabilidad de toxicidad inferior a 0.7 podría avanzar con seguridad en el proceso, mientras que aquellos con una probabilidad entre 0.3 y 0.7 deberían ser enviados a pruebas adicionales. Sin la calibración adecuada, estos umbrales se vuelven arbitrarios y pueden inducir a decisiones erróneas.

La calibración de los modelos se puede evaluar mediante diagramas de confiabilidad, los cuales permiten visualizar cómo se alinean las predicciones del modelo con los resultados reales. Este tipo de evaluación se realiza dividiendo las predicciones en diferentes "cubos" o intervalos, basados en las probabilidades predichas, y luego observando qué tan precisas fueron esas predicciones dentro de cada intervalo. Idealmente, un gráfico de confiabilidad debe mostrar una línea diagonal, lo que indicaría que las probabilidades predichas coinciden estrechamente con los resultados reales. Si los puntos se desvían significativamente de esta línea, el modelo debe ajustarse. Un modelo que sobrestima su confianza en las predicciones se caracteriza por una línea de confiabilidad más alta que la diagonal, mientras que un modelo subestimado se presenta por debajo de esta línea.

Para cuantificar la diferencia entre la línea ideal y la línea de confiabilidad del modelo, se utilizan métricas como el error cuadrático medio de calibración (RMSCE), el error de calibración esperado (ECE) y el error de calibración máximo (MCE). Estas métricas ayudan a diagnosticar cuán bien se alinean las predicciones del modelo con los resultados reales. Sin embargo, el puntaje Brier (BS) ha demostrado ser una medida más robusta para evaluar la calibración en modelos, ya que calcula el error cuadrático medio entre las predicciones del modelo y los resultados observados.

Es importante destacar que la calibración no solo mejora la interpretación de las probabilidades predichas, sino que también permite un uso más efectivo de los modelos en sistemas de toma de decisiones. Un modelo calibrado correctamente puede integrarse más fácilmente en procesos de toma de decisiones y sistemas complejos donde los resultados deben ser confiables y transparentes. De esta forma, los modelos bien calibrados permiten comparar las probabilidades predichas entre diferentes modelos, priorizar compuestos en función de su riesgo o valor relativo y facilitar la integración del modelo en sistemas con múltiples componentes que dependen de la confianza en sus predicciones.

Los métodos post-calibración, como la escala de Platt, pueden corregir la confianza de un modelo que ya ha sido entrenado. Esta técnica paramétrica ajusta los puntajes predichos por el modelo original, mejorando la precisión de las probabilidades y, en consecuencia, la fiabilidad de las decisiones tomadas a partir de ellas.

A medida que los modelos probabilísticos se utilizan en aplicaciones cada vez más complejas, como la predicción de la toxicidad de compuestos, la calibración se convierte en un paso imprescindible para evitar la toma de decisiones erróneas basadas en predicciones equivocadas. Una calibración adecuada garantiza que los modelos no solo sean precisos, sino que también puedan ser interpretados con confianza por los investigadores, mejorando la transparencia y la aceptación de los modelos en la práctica científica.

¿Cómo se implementa un oráculo en sistemas de aprendizaje activo para docking molecular?

En el aprendizaje automático aplicado al descubrimiento de fármacos, la estimación de incertidumbre es una herramienta clave. Utilizar dropout durante la inferencia permite aproximar un muestreo desde una distribución posterior sobre los parámetros del modelo. Esto significa que no se obtiene una sola predicción puntual para cada molécula, sino una distribución de posibles resultados. Al mantener dropout activo y repetir la predicción varias veces por molécula, se puede estimar la incertidumbre del modelo como la desviación estándar entre las predicciones. Este enfoque no sólo mejora la robustez de las predicciones, sino que también guía el aprendizaje activo al priorizar aquellas moléculas cuya predicción conlleva mayor incertidumbre.

El concepto de “oráculo” en este contexto refiere a la fuente de verdad definitiva que convierte datos no etiquetados en datos etiquetados, permitiendo al modelo mejorar su capacidad predictiva. Según el dominio, los oráculos pueden ser expertos humanos que etiquetan imágenes o textos, pero siempre con un costo asociado: tiempo, dinero o recursos computacionales. En el caso del docking molecular, el oráculo es el programa de docking computacional, como AutoDock Vina. Cada vez que se somete una molécula al oráculo, se realiza una simulación de docking completa que devuelve la afinidad de unión: la etiqueta objetiva que el modelo necesita para aprender.

El reto surge cuando se manejan bibliotecas químicas con millones de compuestos. Consultar al oráculo real para cada molécula es impracticable. Aquí es donde entra el aprendizaje activo, que busca reducir al mínimo la cantidad de consultas necesarias al oráculo verdadero, centrándose sólo en los ejemplos más informativos. Durante el desarrollo del sistema, se recurre a un oráculo proxy, como deepdock_oracle, que devuelve puntuaciones precalculadas instantáneamente. Esto permite iteraciones rápidas en la arquitectura del algoritmo sin esperar horas por cada simulación de docking. Además, el uso de oráculos deterministas favorece la reproducibilidad de la investigación.

Para implementar este oráculo proxy, se parte de un conjunto de datos previamente generado mediante AutoDock Vina, como el empleado en el artículo de Deep Docking. Este conjunto incluye moléculas acopladas al dominio de unión de una proteína específica, como el receptor del factor de crecimiento endotelial vascular VEGFR-2 (PDB ID: 4AG8), regulador crucial en la angiogénesis y blanco importante en terapias contra el cáncer. El archivo agregado contiene las 5.000 mejores y peores moléculas según la puntuación de docking, así como 40.000 moléculas seleccionadas aleatoriamente del rango medio. Esto permite evaluar algoritmos de forma rápida sin necesidad de computar nuevos dockings.

La noción se extiende hacia los oráculos de fidelidad múltiple. En lugar de un único oráculo de alto costo, se puede contar con varios niveles de fidelidad: uno de baja fidelidad que ofrece evaluaciones rápidas y aproximadas, otro de fidelidad media con parámetros de búsqueda más exhaustivos, y uno de alta fidelidad que incluye simulaciones de dinámica molecular posteriores al docking. El sistema de aprendizaje activo puede decidir estratégicamente no sólo qué moléculas consultar, sino también con qué oráculo hacerlo. Esta arquitectura jerárquica ofrece una eficiencia superior: muchas moléculas son evaluadas de manera superficial, mientras que sólo las más prometedoras pasan a análisis profundos.

El ciclo de aprendizaje activo se compone de pasos repetitivos: se inicia con una muestra inicial de moléculas diversas, se entrena un modelo predictivo (modelo sustituto), y en cada iteración se selecciona un nuevo lote de moléculas mediante una función de adquisición, se consulta el oráculo (real o proxy), se amplía el conjunto de entrenamiento con las nuevas muestras y se reentrena el modelo. Esta estructura modular permite fácilmente sustituir el oráculo proxy por el real, sin cambiar el resto del sistema.

Es importante que el lector comprenda que todo el marco conceptual permanece inalterado sin importar qué oráculo se utilice. Esto implica que los avances logrados durante la etapa de desarrollo son directamente transferibles a entornos reales, donde el oráculo ya no es un archivo precalculado sino un sistema costoso que simula interacciones moleculares de manera rigurosa.

La transición del oráculo proxy al oráculo real representa un cambio de implementación, no de arquitectura. Por ello, la eficiencia del aprendizaje activo reside en su capacidad de maximizar la información extraída de cada consulta al oráculo, mientras se minimiza el número total de consultas requeridas. En este marco, el papel del oráculo es el de una autoridad epistemológica que dota de sentido al proceso de exploración molecular, delimitando el espacio químico relevante con base en verdades obtenidas experimental o computacionalmente.

Al implementar sistemas de aprendizaje activo con múltiples oráculos, es crucial considerar los trade-offs entre precisión, coste computacional y velocidad de respuesta. El diseño óptimo no necesariamente prioriza la fidelidad más alta para cada decisión, sino que distribuye inteligentemente los recursos según la incertidumbre estimada, el potencial terapéutico y la etapa del proceso de desarrollo. Sólo así se alcanza un equilibrio entre eficiencia operativa y rigor científico.