Bienvenidos a AboutData.blog de Gold Light Data, donde exploramos lo último en Big Data, IA, ML, Analítica de Negocios e Inteligencia de Negocios. Únete a nosotros para mantenerte informado y empoderado en el dinámico mundo de la tecnología de datos.

IA aprende a vincular visión y sonido como los humanos… sin necesidad de etiquetas

Los seres humanos aprendemos de manera natural a conectar lo que vemos con lo que escuchamos. Por ejemplo, al observar a alguien tocar el violonchelo, reconocemos que el sonido que escuchamos proviene de los movimientos del músico. Este tipo de integración sensorial es clave para comprender nuestro entorno.

Ahora, un grupo de investigadores del MIT y otras instituciones ha desarrollado un enfoque que permite a un modelo de inteligencia artificial aprender esta misma capacidad —asociar visión y sonido— sin intervención humana ni etiquetas manuales. Este avance tiene un gran potencial en áreas como el periodismo, la producción audiovisual, la robótica y el desarrollo de modelos de lenguaje multimodales.

IA que aprende como nosotros: vista y sonido sincronizados

Este nuevo enfoque mejora significativamente un modelo anterior desarrollado por el mismo equipo, al permitir una correspondencia más precisa y detallada entre lo que ocurre en la imagen y el sonido que lo acompaña. Es decir, en lugar de tratar el video y el audio como bloques completos (por ejemplo, un clip de 10 segundos), ahora el modelo puede alinear el sonido específico —como una puerta golpeando— con el instante exacto en el que ocurre en la imagen.

Estas mejoras permiten que la IA no solo reconozca que “hay un golpe” en el video, sino que identifique cuándo y dónde ocurre ese evento, con una precisión de grano fino.

El modelo Cav-MAE y su evolución

El punto de partida es Cav-MAE, un modelo de aprendizaje automático que procesa video y audio sin etiquetas. Este modelo codifica los datos audiovisuales como tokens, o representaciones internas, y aprende a emparejarlos en función de su coincidencia natural dentro de cada videoclip.

Sin embargo, en su versión original, Cav-MAE trataba el audio y el video como una sola unidad: si un clip duraba 10 segundos, cualquier sonido se asignaba a todo el video, incluso si solo ocurría en un fragmento breve. Esta limitación dificultaba tareas como la recuperación precisa de videos a partir de sonidos específicos.

Para resolver esto, los investigadores crearon Cav-MAE Sync, una versión mejorada que divide el audio en pequeñas ventanas temporales y genera representaciones separadas para cada una. Así, el modelo puede asociar un marco visual específico con el sonido que ocurre en ese instante, logrando una sincronización precisa entre modalidades.

Mejoras técnicas: arquitectura y objetivos de aprendizaje

Además de refinar el manejo temporal del audio, los investigadores introdujeron cambios arquitectónicos clave. En lugar de obligar al modelo a aprender simultáneamente dos tareas —una contrastiva (detectar similitudes entre pares de audio y video) y otra reconstructiva (recrear datos a partir de una consulta)—, se agregaron componentes especializados para cada objetivo:

  • Tokens globales: ayudan al modelo a aprender qué pares audiovisuales son similares.

  • Tokens de registro: permiten que el modelo se enfoque en los detalles importantes para tareas de reconstrucción.

Esto le da al modelo mayor libertad y capacidad para ejecutar ambas tareas de forma independiente pero colaborativa, lo que mejora el rendimiento general. Como lo explica el investigador Edson Araujo:

“Agregamos un poco más de margen de maniobra al modelo para que pueda realizar cada tarea por separado con mayor precisión.”

Resultados: más precisión con menos datos

Las mejoras realizadas permitieron a Cav-MAE Sync superar no solo a su versión anterior, sino también a otros métodos más complejos y exigentes en términos de datos. El modelo mejorado puede:

  • Recuperar videos a partir de consultas de audio (por ejemplo, buscar un video donde suene un ladrido).

  • Clasificar escenas audiovisuales (por ejemplo, reconocer que una escena contiene un perro ladrando o un instrumento musical).

Este rendimiento superior con menor necesidad de datos es especialmente prometedor para aplicaciones prácticas que no cuentan con grandes conjuntos etiquetados.

Aplicaciones futuras: hacia modelos de lenguaje multimodales

Los investigadores creen que este tipo de tecnología puede integrarse en herramientas de uso cotidiano. Si se combina con grandes modelos de lenguaje, como los LLM actuales, podría facilitar nuevas aplicaciones en generación de contenido, edición inteligente de video, curaduría de material audiovisual, o incluso asistentes robóticos capaces de interpretar su entorno de forma más humana.

Además, se está explorando la posibilidad de extender Cav-MAE Sync para incorporar también datos de texto, lo que abriría la puerta al desarrollo de modelos audiovisuales-lingüísticos capaces de comprender simultáneamente imágenes, sonidos y lenguaje escrito.

Colaboración internacional y respaldo institucional

Este trabajo fue liderado por investigadores del MIT y de otras instituciones, incluyendo la Universidad Goethe (Alemania), IBM Research y el laboratorio conjunto MIT-IBM Watson AI. Entre los autores se encuentran Edson Araujo, Andrew Rouditchenko, Yuan Gong, Saurabhchand Bhati, Samuel Thomas, Brian Kingsbury, Leonid Karlinsky, Rogerio Feris, James Glass y Hilde Kuehne.

La investigación se presentará en la conferencia Computer Vision and Pattern Recognition (CVPR), uno de los foros más relevantes a nivel mundial en el campo de la visión por computadora.

El proyecto cuenta con financiamiento del Ministerio Federal de Educación e Investigación de Alemania y del MIT-IBM Watson AI Lab, reafirmando la relevancia estratégica de este tipo de desarrollos para el futuro de la IA.

Conclusión

Este avance demuestra que es posible entrenar sistemas de IA capaces de interpretar el mundo de manera similar a los humanos, combinando información visual y auditiva sin necesidad de etiquetado humano. Gracias a ajustes inteligentes en arquitectura y entrenamiento, el modelo Cav-MAE Sync da un paso importante hacia una inteligencia artificial más integrada, eficiente y natural.

Próximamente podríamos ver esta tecnología integrarse en plataformas multimedia, robótica, generación de contenidos y más. En un mundo cada vez más multimodal, conectar visión y sonido es una habilidad que cualquier sistema inteligente deberá dominar.

Tags :

Author: Iván Torres
Author: Iván Torres

Iván Torres actualmente cuenta con una Maestría en Ciencias en Analítica de Negocios e Inteligencia Artificial Aplicada, otorgada por la Universidad de Charleston (West Virginia, USA), también es profesor de Ingeniería y Maestría en la Universidad TecMilenio, y ha contribuido en diferentes proyectos tecnológicos como analista, consultor y líder para empresas de ámbito internacional acumulando más de 15 años de experiencia en los campos de desarrollo de Software, Big Data, analítica de negocio e I.A. Editor de About Data Blog.

Leave a Reply

About Data Blog
Resumen de Privacidad

Este sitio web utiliza cookies para que podamos brindarte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando regresas a nuestro sitio web y ayudar a nuestro equipo a comprender qué secciones del sitio web encuentras más interesantes y útiles.