Bienvenidos a AboutData.blog de Gold Light Data, donde exploramos lo último en Big Data, IA, ML, Analítica de Negocios e Inteligencia de Negocios. Únete a nosotros para mantenerte informado y empoderado en el dinámico mundo de la tecnología de datos.

HART: El nuevo modelo híbrido que revoluciona la generación de imágenes por IA

La generación rápida de imágenes realistas se ha convertido en un elemento clave para entrenar sistemas de inteligencia artificial, como los vehículos autónomos, que necesitan navegar por entornos simulados con precisión. Sin embargo, las técnicas actuales presentan una difícil elección: optar por calidad o velocidad.

Por un lado, los modelos de difusión —como Stable Diffusion o DALL·E— producen imágenes increíblemente detalladas, pero lo hacen a un alto costo computacional y en tiempos prolongados. Por otro lado, los modelos autorregresivos, que están detrás de herramientas como ChatGPT, son más rápidos, pero la calidad de imagen que generan suele estar plagada de errores o imperfecciones.

Pero ¿y si pudieras tener lo mejor de ambos mundos?

Nace HART: un enfoque híbrido con lo mejor de cada técnica

Investigadores del MIT y Nvidia han desarrollado HART (Hybrid Autoregressive Transformer), un nuevo modelo de generación de imágenes que combina la velocidad de los modelos autorregresivos con la precisión de los modelos de difusión.

¿Cómo funciona? Primero, HART utiliza un modelo autorregresivo para capturar rápidamente la estructura general de la imagen. Luego, un modelo de difusión liviano entra en acción para refinar los detalles más complejos. Esta combinación permite generar imágenes de alta calidad hasta nueve veces más rápido que los enfoques tradicionales basados únicamente en difusión.

Gracias a su eficiencia, HART puede ejecutarse incluso en laptops o smartphones convencionales. Solo necesitas escribir una instrucción en lenguaje natural, y la herramienta generará una imagen de forma local y veloz.

Una analogía clara: pintar con precisión

Haotian Tang, uno de los coautores del estudio, lo resume con una imagen sencilla:

“Si estás pintando un paisaje y solo pasas una vez el pincel por todo el lienzo, puede que no se vea muy bien. Pero si primero pintas el panorama general y luego retocas los detalles con pinceladas más finas, el resultado será mucho mejor. Esa es la idea de HART.”

¿Por qué es tan eficiente?

La clave está en el uso de tokens. Los modelos autorregresivos comprimen las imágenes en tokens discretos que representan porciones de la imagen. Esto acelera la generación, pero puede perder detalles importantes. HART soluciona esto añadiendo un modelo de difusión que predice tokens residuales, es decir, pequeños ajustes que recuperan información de alta frecuencia como bordes, ojos, cabello, etc.

Y como el modelo de difusión solo interviene al final del proceso, solo necesita unos 8 pasos, en lugar de los 30 o más que suelen necesitar los modelos de difusión puros.

Superando a los gigantes

HART logra igualar (e incluso superar) la calidad de modelos de difusión que utilizan más de 2 mil millones de parámetros, usando solo 700 millones en el modelo autorregresivo y 37 millones en el modelo de difusión. Esto reduce en un 31% el cómputo requerido, manteniendo un rendimiento sobresaliente.

Además, su diseño es compatible con modelos de lenguaje multimodal. En el futuro, podrías interactuar con un modelo como ChatGPT y pedirle que te muestre cómo ensamblar un mueble, generando imágenes paso a paso en tiempo real.

¿Qué viene después?

El equipo de investigadores tiene planes ambiciosos: escalar HART para aplicarlo no solo a generación de imágenes, sino también a video y audio. Su arquitectura es lo suficientemente flexible como para abrir paso a una nueva generación de modelos generativos multimodales.

Este proyecto fue financiado por el MIT-IBM Watson AI Lab, Amazon Science Hub, la Fundación Nacional de Ciencia de EE.UU. y con infraestructura de entrenamiento donada por NVIDIA.

Tags :

Author: Iván Torres
Author: Iván Torres

Iván Torres actualmente cuenta con una Maestría en Ciencias en Analítica de Negocios e Inteligencia Artificial Aplicada, otorgada por la Universidad de Charleston (West Virginia, USA), también es profesor de Ingeniería y Maestría en la Universidad TecMilenio, y ha contribuido en diferentes proyectos tecnológicos como analista, consultor y líder para empresas de ámbito internacional acumulando más de 15 años de experiencia en los campos de desarrollo de Software, Big Data, analítica de negocio e I.A. Editor de About Data Blog.

Deja un comentario

About Data Blog
Resumen de Privacidad

Este sitio web utiliza cookies para que podamos brindarte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando regresas a nuestro sitio web y ayudar a nuestro equipo a comprender qué secciones del sitio web encuentras más interesantes y útiles.