La filtración estructural es una herramienta poderosa en la búsqueda de compuestos químicos con propiedades deseadas, especialmente cuando se trabaja con grandes bibliotecas moleculares. Un ejemplo de esto es el uso de los filtros duros de Glaxo Wellcome, los cuales permiten eliminar de manera eficiente aquellas moléculas que contienen subestructuras indeseadas. Estos filtros se aplican a un conjunto de moléculas, y aquellas que contienen subestructuras específicas, como acilhidrazidas, tioles o haluros de alquilo reactivos, son descartadas. En este proceso, se reduce significativamente el tamaño de la biblioteca sin perder moléculas valiosas para investigaciones adicionales. Tras la aplicación de estos filtros, la biblioteca original de moléculas se reduce a 61,372 compuestos. Este filtrado es crucial porque permite enfocarse en un conjunto de moléculas más manejable, lo que mejora la eficiencia del análisis subsecuente.
El código proporcionado para la implementación de este filtro muestra cómo utilizar la función HasSubstructMatch de RDKit, una herramienta ampliamente usada para la manipulación y análisis de estructuras moleculares. Esta función compara cada molécula con las subestructuras predefinidas en el filtro y marca aquellas que coinciden. A continuación, solo se mantienen las moléculas que no contienen las subestructuras indeseadas, lo cual optimiza la búsqueda de compuestos con las características requeridas para estudios más detallados. Esta es una de las etapas iniciales en un proceso de cribado virtual, que es fundamental para identificar compuestos prometedores de manera rápida y efectiva.
Una vez que se han filtrado las moléculas, se pueden representar de manera más eficiente mediante un tipo de codificación conocido como huellas moleculares, o "fingerprints". Este enfoque convierte las características estructurales de una molécula en un vector binario, en el cual cada bit representa la presencia o ausencia de una característica estructural específica. Por ejemplo, si una molécula contiene un anillo bencénico, se asigna un "1" a ese bit del vector; si no lo tiene, el bit se mantiene como "0". Al representar las moléculas de esta manera, se facilita la comparación entre compuestos y la identificación de aquellos que tienen una estructura similar a compuestos conocidos con propiedades deseadas, como los candidatos antimaláricos.
Las huellas moleculares pueden clasificarse en diferentes tipos, entre los que destacan las basadas en claves estructurales y las huellas "hash" (hasheadas). Las primeras se basan en un diccionario predefinido de fragmentos estructurales, donde cada bit en el vector corresponde a la presencia de un fragmento específico en la molécula. Esta técnica tiene la ventaja de ser rápida y fácil de implementar, pero presenta limitaciones, como la dependencia de un diccionario que no siempre captura todas las características estructurales posibles de una molécula.
Por otro lado, las huellas "hash" ofrecen mayor flexibilidad, ya que no dependen de un diccionario predefinido de fragmentos. Estas huellas se basan en la descomposición de la molécula en todas las rutas lineales posibles de átomos o enlaces hasta un número definido, y luego se aplica una función hash para asignar valores binarios. Este enfoque es especialmente útil cuando se quiere evitar las limitaciones de los fragmentos predefinidos y se necesita una representación más flexible y generalizable de las moléculas.
En ambos casos, una vez que las moléculas se han representado mediante huellas moleculares, se puede realizar un cribado por similitud. Esto consiste en comparar las huellas de las moléculas de la biblioteca con las huellas de un compuesto de referencia conocido, y seleccionar aquellos compuestos que tengan una huella similar. Esta técnica es muy utilizada en el cribado virtual, donde se evalúa la similitud estructural entre compuestos y se seleccionan aquellos que tienen el mayor potencial para ser candidatos a nuevas investigaciones.
Además de los filtros estructurales y las huellas moleculares, existen otros aspectos importantes que deben considerarse al construir una pipeline eficiente para el cribado de moléculas. La calidad de los datos, la correcta parametrización de las herramientas y la interpretación adecuada de los resultados son factores clave para asegurar que los compuestos seleccionados sean realmente relevantes para los estudios posteriores. La optimización de este proceso no solo mejora la eficiencia de las investigaciones, sino que también reduce el costo computacional, lo que resulta esencial cuando se trabaja con grandes cantidades de datos y moléculas complejas.
¿Cómo pueden los modelos de Machine Learning aprender patrones estructurales relacionados con el bloqueo de hERG?
En la química medicinal, uno de los mayores desafíos al diseñar nuevos fármacos es predecir cómo ciertas moléculas interaccionarán con proteínas específicas, como el canal hERG, un canal iónico involucrado en la conducción del potencial de acción cardíaco. La capacidad de predecir el bloqueo de hERG de una molécula puede ser crucial, ya que el bloqueo excesivo de este canal está relacionado con arritmias cardíacas peligrosas. A través del uso de técnicas avanzadas de aprendizaje automático (Machine Learning o ML), podemos identificar patrones estructurales que permiten predecir con alta precisión si un compuesto tendrá efectos no deseados sobre hERG, eliminando la necesidad de evaluaciones exhaustivas mediante experimentos en laboratorios.
Para abordar este problema, primero necesitamos explorar y visualizar los datos moleculares que tenemos disponibles. Por ejemplo, en la visualización de compuestos extremos (como los hERG bloqueadores más potentes y los más débiles) podemos observar patrones estructurales comunes entre ellos. A través de un enfoque de ML, podemos optimizar los modelos para que detecten estos patrones, lo que nos permite hacer predicciones precisas sin tener que revisar manualmente cada estructura química.
Una de las primeras etapas en el proceso de modelado es la estandarización de los datos. Las moléculas en bruto, representadas por cadenas SMILES (Simplified Molecular Input Line Entry System), a menudo varían en su presentación. Algunas pueden tener grupos funcionales redundantes o especificaciones de estereoquímica innecesarias. Para crear una representación más coherente, los datos se estandarizan mediante una serie de operaciones que incluyen la limpieza de grupos funcionales, la neutralización de las moléculas y la eliminación de fragmentos adicionales como sales o solventes. Este proceso es crucial para garantizar que todos los compuestos sean presentados de una manera que el modelo pueda interpretar de manera consistente.
El siguiente paso en el flujo de trabajo es la generación de características. Usamos huellas moleculares (fingerprints) para representar cada compuesto. Estas huellas son vectores de bits que capturan la presencia de subestructuras moleculares relevantes. Al aplicar la huella de Morgan, cada molécula es representada en un espacio de 2048 dimensiones, lo que permite que el modelo aprenda patrones en base a la distribución de estos bits. El análisis de estas huellas puede revelar que ciertos bits son comunes en un gran número de moléculas, lo que indica la presencia de subestructuras comunes responsables del bloqueo de hERG. De esta manera, los modelos de ML pueden identificar relaciones entre estas subestructuras y la actividad biológica de los compuestos.
El proceso de análisis de las huellas moleculares puede ser complicado, ya que no todas las moléculas son igualmente representativas en el espacio de características. Por ejemplo, algunas moléculas pueden tener huellas extremadamente dispersas, con muchos bits no establecidos, mientras que otras pueden tener una representación más concentrada. Esta variabilidad es importante porque puede influir en cómo el modelo aprenderá a predecir el comportamiento de las moléculas frente a hERG.
La estandarización y las huellas moleculares no son solo pasos previos al modelado, sino que también ayudan a reducir el ruido en los datos y mejoran la calidad de las predicciones del modelo. Por ejemplo, al eliminar fragmentos innecesarios y neutralizar las cargas, se elimina la variabilidad que podría inducir errores en la interpretación del modelo.
Una vez que tenemos nuestras moléculas estandarizadas y representadas como huellas, el siguiente paso es la aplicación de modelos de ML. Los modelos lineales, como la regresión logística o las máquinas de soporte vectorial, son comunes en este tipo de tareas. Durante el entrenamiento, estos modelos aprenden a mapear las huellas moleculares a las propiedades de interés, como la propensión de un compuesto a bloquear el canal hERG.
El proceso de modelado es supervisado, lo que significa que alimentamos al modelo con datos etiquetados, es decir, compuestos que ya sabemos si son bloqueadores de hERG o no. El modelo aprende a partir de estas etiquetas y generaliza para predecir la actividad de compuestos no etiquetados. Este enfoque es muy efectivo, ya que el modelo puede identificar patrones ocultos en los datos que no son evidentes a simple vista, pero que son fundamentales para la predicción.
Además de la estandarización y las huellas moleculares, el proceso de validación de los resultados es crucial. A menudo, la calidad de un modelo se mide no solo por su precisión en los datos de entrenamiento, sino también por su capacidad de generalizar a nuevos datos. Por lo tanto, se recomienda realizar pruebas de validación cruzada y ajustes del modelo, para asegurarse de que las predicciones sean robustas y no dependan de particularidades del conjunto de datos original.
En resumen, el uso de ML para predecir el bloqueo de hERG es un proceso complejo que involucra desde la estandarización de los datos moleculares hasta la creación de huellas moleculares y la aplicación de modelos de aprendizaje supervisado. Este enfoque permite predecir con gran precisión los efectos de nuevos compuestos sin necesidad de pruebas experimentales exhaustivas, lo que puede acelerar significativamente el proceso de descubrimiento de fármacos.
¿Cómo se desarrollan inhibidores de EGFR mediante modelos de redes neuronales y qué impacto tiene en la investigación contra el cáncer?
Los receptores de tirosina quinasa (TKLRs) juegan un papel fundamental en el control del crecimiento celular. Estos receptores se activan mediante la unión de un ligando extracelular, lo que desencadena cambios dentro de la célula. Están estrechamente asociados con factores de crecimiento que, como su nombre lo indica, regulan el crecimiento de las células. Debido a su implicación en la regulación celular, los TKLRs se vinculan a diversas rutas de cáncer en caso de fallos en la regulación celular. A diferencia de los TKLRs, los receptores nucleares se encuentran flotando libremente dentro del núcleo celular, y tienen una influencia significativa en la regulación del ADN y la expresión génica. La activación de estos receptores mediante ligandos exógenos, como los fármacos, puede acarrear consecuencias difíciles de controlar, lo que se traduce en una larga lista de efectos secundarios asociados con los medicamentos dirigidos a estos receptores.
En este contexto, uno de los principales objetivos terapéuticos es el receptor del factor de crecimiento epidérmico (EGFR), una proteína transmembrana que regula el crecimiento y la división celular. EGFR es de especial interés debido a que las mutaciones y sobreexpresiones de este receptor se asocian con varios tipos de cáncer, como los de pulmón, colon y mama. Cuando EGFR presenta una señalización anómala, la proliferación celular se descontrola, impulsando el crecimiento tumoral. Así, los inhibidores de tirosina quinasa (TKIs) que bloquean esta vía de señalización se convierten en una estrategia clave para tratar estos cánceres.
Para obtener datos bioactivos sobre EGFR, recurrimos a la base de datos ChEMBL, que, según la última actualización (enero de 2024), contiene más de 200,000 mediciones curadas de actividad quinasa. En este caso, utilizaremos un subconjunto de 7,287 mediciones bioactivas del receptor EGFR disponibles a través de Kinodata (https://github.com/openkinome/kinodata/releases). Estos datos nos permiten entrenar un modelo que predice la pIC50 de EGFR, donde pIC50 es el logaritmo negativo de IC50, lo que facilita su manipulación. El valor pIC50 proporciona una medida de la potencia del fármaco, donde valores más altos indican mayor potencia.
Una vez entrenado el modelo para predecir la pIC50 de EGFR, el siguiente paso será descubrir nuevos inhibidores de EGFR. Esto se realizará mediante el cribado de la biblioteca de ligandos Enamine Hinge Binder, que contiene moléculas pequeñas diseñadas para unirse a la región bisagra de las quinasas. La región bisagra es crucial para el funcionamiento de las quinasas, ya que es donde se une el ATP, la fuente de energía para estas enzimas. Dado que las secuencias y estructuras de las quinasas son altamente conservadas en diversas quinasas, la región bisagra se convierte en un objetivo atractivo para el diseño de fármacos. Las moléculas diseñadas para interactuar específicamente con esta región pueden bloquear la actividad quinasa, impidiendo su función y alterando procesos celulares clave.
Los inhibidores más eficaces en este caso siguen un patrón estándar de interacción entre el ligando y la quinasa: un aceptador de enlace de hidrógeno para la región bisagra, un núcleo heteroaromático con varios sustituyentes y un segundo aceptador de hidrógeno para un residuo de lisina conservado. Cuando esta región es bloqueada por un inhibidor, la quinasa no puede transferir grupos fosfato del ATP a otras moléculas, lo que interrumpe su actividad y modula los procesos celulares relacionados.
Además de las bases de datos químicas y bioactivas más conocidas como ChEMBL y PubChem, existen otras fuentes de datos específicos de quinasas como KLIFS (https://klifs.net/), BindingDB (https://www.bindingdb.org/) y KIBA (https://doi.org/10.1021/ci400709d), que ofrecen información valiosa para la investigación de nuevos inhibidores.
Una vez que se ha identificado una molécula prometedora, el siguiente paso es utilizar modelos de redes neuronales para predecir la actividad biológica y optimizar el diseño de nuevos fármacos. En este capítulo, utilizaremos PyTorch, una herramienta prominente de aprendizaje profundo, para crear y entrenar un modelo de red neuronal. PyTorch, de código abierto y basado en Python, es ampliamente adoptado en la investigación académica y la industria debido a su facilidad de uso y alto rendimiento. A través de la creación de redes neuronales, podemos modelar relaciones no lineales complejas entre la estructura molecular y sus propiedades, lo que permite predecir la actividad biológica de nuevas moléculas.
La capacidad de las redes neuronales para aprender automáticamente características relevantes a partir de datos moleculares crudos marca un cambio significativo en la forma en que se abordan los problemas de descubrimiento de fármacos. A diferencia de los enfoques tradicionales, que dependen de la ingeniería de características, las redes neuronales extraen las características más importantes directamente de los datos, lo que optimiza el proceso de descubrimiento y mejora la precisión de las predicciones.
El modelo entrenado puede ser utilizado para filtrar grandes bibliotecas de compuestos y seleccionar aquellos que tienen una alta probabilidad de ser inhibidores eficaces de EGFR. Este proceso de modelado no solo acelera el descubrimiento de nuevos fármacos, sino que también abre la puerta a la identificación de terapias más personalizadas y específicas para los pacientes con cáncer.
Además de la predicción de la actividad biológica, el uso de redes neuronales puede facilitar la comprensión de los mecanismos de acción de los fármacos y cómo interactúan con sus objetivos moleculares. Esto es crucial para mejorar la eficacia y reducir los efectos secundarios de los tratamientos, lo que, a su vez, contribuye al desarrollo de terapias más seguras y efectivas para los pacientes.
Los beneficios de las papillas
INFORMACIÓN SOBRE LOS EVENTOS PLANIFICADOS DURANTE LA SEMANA DE ASISTENCIA JURÍDICA A MENORES EN LA REGIÓN DE KOSTROMÁ (19–23 DE NOVIEMBRE DE 2018)
Programa de Trabajo de Química para Estudiantes de 11º Grado
Trivia sobre el mundo natural: «El más, la más, lo más»

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский