¿Nos dirigimos hacia una nueva era en la forma de entrenar a los LLM?

La forma en que los grandes modelos de lenguaje (LLMs) generan texto actualmente tiene un cuello de botella fundamental. Aunque son muy poderosos, siguen produciendo texto token por token, es decir, generando cada palabra (o sub-palabra) de forma secuencial. Si queremos que un modelo escriba un artículo de 1000 palabras, deberá realizar al menos 1000 pasos de predicción en secuencia, lo que hace que el tiempo y costo computacional crezcan de forma lineal con la longitud del texto. En otras palabras, incluso los modelos más avanzados funcionan como un auto de carreras obligado a avanzar en primera marcha: avanzando muy rápido internamente, pero aún así un paso diminuto a la vez. Esta limitación afecta la velocidad, escalabilidad y costo de usar LLMs en la práctica.

Frente a este problema, investigadores de Tencent AI Lab (WeChat AI) y la Universidad de Tsinghua han propuesto una solución innovadora llamada CALM (Continuous Autoregressive Language Models). CALM introduce un nuevo paradigma de generación: en lugar de predecir el siguiente token discreto, el modelo predice un vector continuo que representa varios tokens a la vez. Al aumentar la cantidad de información que el modelo genera en cada paso (lo que llaman aumentar el “ancho de banda semántico” por paso), CALM promete sortear el cuello de botella del enfoque tradicional y lograr modelos de lenguaje mucho más rápidos y eficientes. A continuación, exploraremos cómo funciona esta idea, sus ventajas, resultados experimentales y qué implicaciones prácticas tiene.

¿En qué consiste CALM? Un vistazo general

Continuous Autoregressive Language Model (CALM) es un marco de modelado de lenguaje introducido en 2025 que replantea la generación secuencial token a token por una generación vector a vector continua. En esencia, CALM logra que cada paso generativo del modelo abarque más contenido lingüístico del que abarca un token único. Para ello, se apoya en dos componentes principales:

Autoencoder de alta fidelidad: Un autoencoder neuronal aprende a comprimir una secuencia de K tokens en un solo vector latente continuo, y luego reconstruir esos tokens originales a partir de ese vector con altísima exactitud. En el trabajo de CALM, lograron más del 99,9% de precisión al reconstruir los tokens originales desde el vector comprimido, lo que significa que la compresión es prácticamente sin pérdidas.
Modelo autoregresivo continuo: En lugar de predecir el próximo token discreto del vocabulario, el modelo de lenguaje (por ejemplo, un Transformer modificado) aprende a predecir el próximo vector latente continuo en la secuencia. Cada vector predicho corresponde a K tokens reales una vez decodificado. Después de que el modelo genera un vector, el decodificador del autoencoder toma ese vector y lo traduce de vuelta a los K tokens de texto originales. De esta forma, cada paso generativo produce múltiples tokens de salida.

En términos prácticos, CALM reduce la cantidad de pasos secuenciales en un factor de K. Por ejemplo, si K=4, el modelo genera 4 tokens en cada paso vectorial; para producir una frase de 1000 tokens, en vez de 1000 pasos necesitaría unos 250 pasos. Esto representa un cambio de paradigma: pasamos de procesar ~15 bits de información por paso (lo que aporta un token aproximadamente) a manejar una cantidad mucho mayor de información por paso gracias al vector latente. Así, aumentar K equivale a darle al modelo un “ancho de banda” más grande en cada paso de generación, permitiendo saltar porciones más largas de texto de una sola vez en lugar de avanzar token a token.

¿Cómo funciona internamente?

Para lograr lo anterior, CALM implementa una arquitectura específica de entrenamiento en dos etapas:

Entrenamiento del Autoencoder: Primero se entrena un autoencoder que aprende a mapear secuencias de K tokens a vectores continuos (y viceversa). Este autoencoder debe ser muy preciso al reconstruir, ya que cualquier pérdida de información podría distorsionar el texto generado. En el estudio original, el autoencoder (de ~75 millones de parámetros) se entrenó con un conjunto masivo de texto (~15 mil millones de tokens del dataset The Pile) hasta lograr que pudiera reconstruir secuencias con más del 99,9% de fidelidad a los tokens originales. En otras palabras, dada una frase de K tokens, el autoencoder la comprime a un vector z y el decodificador puede recuperar exactamente esos mismos tokens casi siempre.
Entrenamiento del Modelo de Lenguaje Continuo: Con el autoencoder listo, se entrena el modelo autoregresivo principal. Este modelo toma una secuencia de vectores latentes (cada vector proviene de K tokens de texto) y aprende a predecir el siguiente vector latente dado los anteriores. Es decir, si tenemos texto ya generado (representado por sus vectores latentes comprimidos), el modelo estima cuál sería el vector correspondiente a los siguientes K tokens de continuación. Dado que ahora la predicción es un vector en un espacio continuo, el entrenamiento ya no puede usar la técnica estándar de maximizar la probabilidad (likelihood) de un token discreto. En su lugar, los autores desarrollaron un esquema de entrenamiento likelihood-free (sin probabilidad explícita) basado en métodos de energía y muestreo Monte Carlo. Simplificando, el modelo se entrena para que el vector que predice esté lo más cerca posible del vector “verdadero” (obtenido del autoencoder) para la siguiente porción de texto. Esto se puede lograr minimizando una métrica de distancia en el espacio continuo en lugar de una entropía cruzada sobre vocabulario.
Métrica de evaluación especial: Del mismo modo, evaluar la calidad de este modelo requiere algo diferente a la perplejidad tradicional (que depende de probabilidades token a token). Los investigadores introdujeron una métrica llamada BrierLM, diseñada para medir qué tan bien calibradas y precisas son las predicciones continuas del modelo. BrierLM demostró correlacionar fuertemente con la entropía cruzada de un modelo discreto equivalente (correlación de Pearson ≈ -0.966), lo que sugiere que es un buen indicador de desempeño comparable a las métricas tradicionales. En otras palabras, aunque CALM no produce probabilidades sobre tokens, sí podemos juzgar su rendimiento de forma análoga a como lo haríamos con un modelo tradicional gracias a esta métrica.

Con este enfoque, tras entrenar ambos componentes, generar texto con CALM funciona así: se proporciona un prompt o contexto inicial, el texto se comprime a vectores latentes, y luego el modelo autoregresivo genera un nuevo vector latente continuo como siguiente paso. Este vector se pasa por el decodificador del autoencoder para obtener los próximos K tokens de texto legible, que se anexan a la salida. Se actualiza el estado con ese nuevo vector y el proceso continúa autoregresivamente. De esta manera, en cada iteración se obtienen múltiples palabras en lugar de una sola, acelerando considerablemente la generación.

Ventajas de CALM: menos pasos, menos costo, rendimiento mantenido

Las ventajas de este paradigma continuo quedaron evidenciadas en los experimentos reportados por sus creadores. A grandes rasgos, CALM logró igualar el desempeño de fuertes modelos tradicionales, pero requiriendo significativamente menos computación. Algunas claves a destacar:

Muchos menos pasos autoregresivos: Si el modelo agrupa K tokens por paso, necesita aproximadamente 1/K del número de pasos para generar la misma cantidad de texto. Por ejemplo, con K=4 los investigadores observaron que se recortan alrededor de un 75% de los pasos necesarios (1000 tokens en ~250 pasos). Esto se traduce en una enorme reducción del trabajo secuencial que debe hacer el modelo en inferencia.
Ahorro computacional significativo: Reducir pasos implica menos operaciones totales. El preprint de CALM reporta más de 40% de reducción en FLOPs (operaciones de coma flotante) comparado con un Transformer estándar que logre similar precisión. En pruebas concretas, un modelo CALM pequeño (≈280M parámetros) con K=4 ahorró ~44% de FLOPs en entrenamiento y ~34% en inferencia respecto a su equivalente token-a-token, manteniendo desempeño comparable. Modelos CALM más grandes también mostraron ahorros similares, con incluso mejor equilibrio entre costo y rendimiento en el caso de un modelo XL.
Mantenimiento de la calidad: A pesar de la drástica reducción de cálculo, CALM alcanzó resultados al nivel de los modelos discretos de referencia en las métricas de desempeño. Gracias a la alta fidelidad del autoencoder y al cuidadoso entrenamiento likelihood-free, el modelo continuo logró generar texto con calidad prácticamente equivalente a la de un modelo tradicional de similar tamaño. Los autores señalan que con K=4 se obtiene el mejor compromiso: agrupar más tokens (K demasiado alto) podría empezar a degradar la fidelidad, mientras que K=4 logró un balance óptimo entre velocidad y precisión en sus experimentos.
Nuevo eje de escalabilidad: CALM introduce la idea de escalar modelos no solo por tamaño de parámetros o cantidad de datos, sino también por cantidad de información por paso. Aumentar K (siempre que el autoencoder lo soporte sin pérdida) ofrece una nueva forma de mejorar la eficiencia de los LLMs. Este concepto de “ancho de banda semántico” por paso abre la puerta a arquitecturas híbridas donde se pueda ajustar cuántos tokens generamos por iteración como otro parámetro de diseño del modelo.

En conjunto, estos puntos sugieren que CALM efectivamente rompe la barrera de velocidad de los LLMs sin sacrificar mucho (o nada) de su capacidad de generación de texto. La generación por vectores continuos demostró ser viable y beneficiosa, al menos en el entorno controlado del estudio.

Desafíos y consideraciones de este enfoque

Como toda nueva tecnología, CALM también presenta desafíos y limitaciones que es importante tener en cuenta:

Necesidad de un autoencoder robusto: El éxito de CALM depende en gran medida de que el autoencoder comprima y descomprima texto casi sin errores. Entrenar este autoencoder a alta fidelidad es costoso y añade complejidad al sistema (es un componente adicional que entrenar y mantener). Si el autoencoder no reconstruye bien, la calidad del texto sufre directamente.
Predicciones continuas sin probabilidad explícita: Al no predecir tokens discretos, el modelo no asigna probabilidades a palabras concretas. Esto dificulta la calibración del modelo y ciertas técnicas como el ajuste fino con retroalimentación humana (RLHF), que típicamente se basan en evaluaciones token a token. En CALM, métricas como BrierLM ayudan a evaluar desempeño, pero aún es un terreno nuevo cómo interpretar la confianza del modelo en sus predicciones continuas.
Deriva semántica en largas secuencias: Un riesgo teórico es que pequeños errores en los vectores latentes se acumulen a lo largo de muchas predicciones. Si la representación latente empieza a desviarse del significado original (por errores del autoencoder o del modelo autoregresivo), podría haber deriva semántica, haciendo que el texto generado más adelante pierda coherencia con el inicio. Mantener la estabilidad en el espacio continuo para largas generaciones es un reto que requerirá más investigación.
Resultados preliminares y ámbito limitado: Hay que notar que CALM es, por ahora, un preprint no revisado por pares, y los experimentos se realizaron en escenarios controlados (datasets en inglés, ningún indicio de pruebas en otros idiomas o tareas muy especializadas). Queda explorar cómo se comporta en escenarios del mundo real, con entradas adversas, contextos muy largos, o incorporando aspectos multimodales (por ejemplo, combinar texto con imágenes), algo que los autores mencionan como posible trabajo futuro.

En resumen, CALM añade complejidad al modelo (entrenar dos partes por separado, nuevas funciones de entrenamiento y evaluación) y aún tiene puntos abiertos. Sin embargo, estos desafíos son acompañados por soluciones iniciales propuestas (e.g., el framework likelihood-free, la métrica BrierLM) y no opacan el hecho de que la idea central funciona y ofrece beneficios tangibles.

Conclusiones e implicaciones prácticas de CALM

CALM representa un cambio de perspectiva estratégico en cómo pensamos la generación de texto por inteligencia artificial. En lugar de conformarse con la generación secuencial tradicional, explora un camino donde cada paso del modelo produce mucho más trabajo útil. ¿Qué implicaciones prácticas tendría esto si se consolida?

En primer lugar, modelos de lenguaje mucho más rápidos y económicos. Una reducción del 30–40% (o más) en el costo de cómputo para generar texto significa que herramientas como chatbots, asistentes virtuales o sistemas de resumen automático podrían operar con menos recursos o en menos tiempo. Por ejemplo, servicios en la nube que hoy consumen decenas de GPU para desplegar un LLM podrían atender más usuarios con el mismo hardware gracias a la eficiencia mejorada. Del mismo modo, podría acercarnos a aplicaciones en tiempo real más fluidas, donde la respuesta de un modelo gigante sea prácticamente instantánea al usuario porque internamente requiere menos pasos para formularla.

Además, al introducir un nuevo eje de escalamiento (K, el número de tokens por paso), CALM podría complementar otras técnicas de optimización. Por ejemplo, nada impide combinar este enfoque con modelos expertos (Mixture-of-Experts) o con técnicas de decodificación especulativa, potenciando aún más la capacidad de generar texto rápido sin perder precisión. También podría allanar el camino para que modelos grandes corran en dispositivos con recursos limitados, al disminuir la necesidad de cómputo secuencial podrían ser más aptos para correr localmente en un celular o laptop.

Por supuesto, habrá que seguir investigando. Aspectos como la calibración de salidas continuas, la integración con métodos de alineamiento con preferencias humanas, o asegurar que el modelo no invente tokens que el autoencoder no pueda decodificar correctamente, son temas pendientes. Sin embargo, los resultados logrados con CALM indican que vale la pena el esfuerzo: han demostrado que es posible romper la barrera del token y abrir una vía hacia LLMs ultra-eficientes.

En conclusión, CALM nos muestra una dirección prometedora para el futuro de los modelos de lenguaje. Si este paradigma se perfecciona y adopta, podremos disfrutar de modelos tan potentes como los actuales pero mucho más rápidos, baratos y escalables, lo que ampliará el alcance y accesibilidad de la IA en aplicaciones cotidianas. Es un gran paso hacia modelos de lenguaje más eficientes, capaces de pensar en oraciones enteras en lugar de letras, acelerando el paso en la carrera por IA más avanzada y útil para todos.

Tags :

autoencoder, autoregresivo, CALM, deep learning, eficiencia computacional, entrenamiento de LLMs, inteligencia artificial, LLM, machine learning, Modelos de Lenguaje, NLP, tokens, transformers, vector continuo

Author: Iván López Torres

Iván López Torres actualmente cuenta con una Maestría en Ciencias en Analítica de Negocios e Inteligencia Artificial Aplicada, otorgada por la Universidad de Charleston (West Virginia, USA), también es profesor de Ingeniería y Maestría en la Universidad TecMilenio, y ha contribuido en diferentes proyectos tecnológicos como analista, consultor y líder para empresas de ámbito internacional acumulando más de 15 años de experiencia en los campos de desarrollo de Software, Big Data, analítica de negocio e I.A. Editor de About Data Blog.

Bienvenidos a AboutData.blog, donde exploramos lo último en Big Data, IA, ML, Analítica de Negocios e Inteligencia de Negocios. Únete a nosotros para mantenerte informado y empoderado en el dinámico mundo de la tecnología de datos.

¿Nos dirigimos hacia una nueva era en la forma de entrenar a los LLM?

¿En qué consiste CALM? Un vistazo general

¿Cómo funciona internamente?

Ventajas de CALM: menos pasos, menos costo, rendimiento mantenido

Desafíos y consideraciones de este enfoque

Conclusiones e implicaciones prácticas de CALM

Tags :

Leave a Reply Cancel reply

Categories

Related Post

Entrenamiento distribuido de LLMs con PyTorch DDP: cómo escalar modelos de lenguaje masivos

MIT logra “hablar objetos a la existencia”: un avance que une IA generativa, robótica y fabricación modular

La vulnerabilidad silenciosa de los LLM: cuando la sintaxis suplanta al conocimiento

Contáctanos

Copyright © 2025 About Data Blog. All rights Reserved.