Explorar cómo los cambios en la expresión genética influyen en el funcionamiento celular a nivel molecular permite a los investigadores comprender el desarrollo de enfermedades. Sin embargo, con más de 20,000 genes interactuando en el genoma humano, comprender las conexiones y predecir cómo se afectan mutuamente es un desafío complejo. Además, los genes suelen trabajar juntos en módulos, en los que se regulan mutuamente.
Investigadores del MIT han desarrollado un marco teórico que podría revolucionar este proceso, identificando formas de agrupar genes en conjuntos que permitan estudiar las relaciones causales entre muchos genes de manera eficiente. Lo destacable de este enfoque es que utiliza solo datos de observación, lo que significa que los científicos no necesitan llevar a cabo costosos o incluso inviables experimentos intervencionistas. Esto representa un gran avance, ya que abre la puerta a una investigación menos intrusiva pero igualmente efectiva para descubrir relaciones causales subyacentes entre genes.
A largo plazo, esta técnica podría ser clave para ayudar a los científicos a identificar objetivos genéticos específicos, lo que permitiría inducir ciertos comportamientos celulares de forma más precisa y eficiente. Esta capacidad es crucial en el desarrollo de tratamientos personalizados, ya que podría permitir a los investigadores diseñar tratamientos específicos para distintos perfiles genéticos.
“En genómica, comprender el mecanismo subyacente de los estados celulares es esencial”, dice Jiaqi Zhang, estudiante graduado y miembro del Centro Eric y Wendy Schmidt del MIT. Zhang, coautor principal del estudio, destaca también que la estructura multiescala de las células hace que el nivel de agregación de los datos sea igualmente importante. “Si logras agrupar los datos observados de forma adecuada, la información que obtienes sobre el sistema es más interpretable y útil”, añade. En este trabajo, Zhang colaboró con el coautor principal Ryan Welch, estudiante de maestría en ingeniería, y con la profesora Caroline Uhler, del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y del Instituto de Datos, Sistemas y Sociedad (IDSS) del MIT. Uhler también dirige el Centro Eric y Wendy Schmidt en el Instituto Broad del MIT y Harvard y participa en el Laboratorio de Sistemas de Información y Decisión (LIDS). Este estudio se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Aprender de Datos Observacionales
El problema que los investigadores buscaban resolver se relaciona con el aprendizaje de programas genéticos, un proceso que describe cómo ciertos genes regulan otros genes en procesos biológicos complejos, como el desarrollo o la diferenciación celular. Dado que no es práctico estudiar las interacciones de los 20,000 genes uno por uno, los científicos emplean una técnica llamada desenredo causal. Este método permite agrupar genes en módulos y analizar sus relaciones causales sin intervención directa, abriendo nuevas posibilidades para estudiar las complejas redes genéticas.
En estudios previos, los investigadores habían demostrado que este enfoque era eficaz utilizando datos intervencionistas, es decir, datos obtenidos tras alterar deliberadamente variables dentro de la red genética. Sin embargo, estos experimentos son costosos y, en ocasiones, éticamente cuestionables o técnicamente inviables.
El nuevo enfoque del MIT no requiere estas intervenciones. Emplea un algoritmo de aprendizaje automático para identificar y agrupar de manera eficiente genes en módulos causales, utilizando únicamente datos de observación. “La mayoría de las investigaciones sobre el desenredo causal asumen la disponibilidad de datos intervencionistas, por lo que no estaba claro cuánta información podía obtenerse sólo a partir de datos de observación”, explica Zhang. Esta investigación ofrece una teoría innovadora que explora qué tan lejos pueden llegar los científicos sin necesidad de experimentos intervencionistas.
Una Representación en Capas
Utilizando herramientas estadísticas avanzadas, los investigadores calculan la varianza del jacobiano de la puntuación de cada variable observada, una función matemática que permite identificar las variables sin efectos en otras variables de la red. En otras palabras, si la varianza de una variable es cero, significa que esa variable no impacta ninguna otra y puede eliminarse en la representación estructural de las relaciones genéticas. Este método permite reconstruir una representación jerárquica en capas de los datos observacionales, eliminando las variables sin efecto a medida que avanzan en cada capa, lo que finalmente revela las conexiones causales entre grupos de genes.
“Resolver las varianzas cero se convierte en un desafío combinatorio complejo, así que diseñar un algoritmo eficiente fue clave en este trabajo”, señala Zhang. Al final, el método genera una representación abstracta de los datos en capas, donde cada variable representa un conjunto agregado de genes que trabajan en conjunto. Las relaciones entre estas capas reflejan cómo un grupo de genes regula a otro, y la estructura resultante ofrece una visión precisa de las interacciones causales subyacentes en el sistema.
Tras probar la solidez teórica del método, los investigadores realizaron simulaciones para demostrar que el algoritmo puede desenredar de manera eficiente representaciones causales utilizando exclusivamente datos de observación.
Aplicaciones Futuras
Mirando hacia el futuro, los investigadores esperan aplicar esta técnica en estudios genéticos de la vida real, explorando cómo podría ofrecer información adicional en contextos donde se dispone de algunos datos de intervención. También planean estudiar cómo esta metodología puede ayudar a los científicos a diseñar intervenciones genéticas efectivas, optimizando sus esfuerzos para desentrañar cómo funcionan los genes dentro de programas específicos y permitiendo así desarrollar tratamientos dirigidos con mayor precisión. Esta técnica también puede ser útil para identificar posibles medicamentos que ataquen genes específicos en ciertas enfermedades, una ventaja significativa en la medicina personalizada.
Este innovador enfoque ha sido financiado en parte por el Laboratorio de IA Watson del MIT-IBM y la Oficina de Investigación Naval de EE. UU., instituciones comprometidas en la investigación de vanguardia que impulsa el desarrollo de herramientas científicas para el bienestar humano.