Hogar Big Data Llevando los modelos de lenguaje a un nivel superior

Llevando los modelos de lenguaje a un nivel superior

por Iván Torres
0 comentario

En las últimas semanas, hemos escuchado hablar de los populares modelos de lenguaje extenso (LLM) como ChatGPT. Aquí, esbozaremos un enfoque que creo que representa el futuro de los LLM en términos de cómo hacerlos más útiles, precisos e impactantes.

Modelos en conjunto: integrando el aprendizaje automático con los LLM

Uno de los enfoques que ha ayudado a aumentar el poder de los modelos de aprendizaje automático, así como de los modelos estadísticos clásicos, es el modelado en conjunto. Con la reducción de los costos de procesamiento, se ha hecho posible aplicar diversas metodologías de modelado en un conjunto de datos para determinar cuál es la más eficiente. Además, se descubrió que, al igual que con el concepto bien documentado de “La sabiduría de las multitudes”, las mejores predicciones a menudo no provienen del mejor modelo individual, sino de un promedio de muchas predicciones diferentes de muchos modelos distintos.

Cada metodología de modelado tiene fortalezas y debilidades, y ninguna será perfecta. Sin embargo, al tener en cuenta las predicciones de muchos modelos en conjunto, se pueden obtener resultados sólidos que convergen en una respuesta mejor que la que proporciona cualquier modelo individual.

Antes de abordar el punto principal, es esencial comprender otro concepto relacionado.

Aplicaciones versus modelos: ¡no son lo mismo!

Es crucial distinguir entre el modelo de LLM en sí y una aplicación que facilita la interacción de los usuarios con dicho modelo. Esto puede parecer una distinción menor al principio, ¡pero no lo es! Por ejemplo, los modelos de mezcla de marketing se han utilizado durante años para evaluar y asignar el gasto en marketing. La capacidad de generar un verdadero valor con los modelos de mezcla de marketing se disparó cuando se crearon aplicaciones de marketing empresarial que permitían a los usuarios ajustar la configuración, simular los impactos asociados y luego tomar acciones basadas en los resultados.

Mientras que los modelos de mezcla de marketing son el motor detrás del proceso, las aplicaciones actúan como el volante y el acelerador, permitiendo a los usuarios aprovechar los modelos subyacentes eficientemente. Los LLM en sí mismos no están listos para que los usuarios los utilicen directamente cuando se crean, ya que son efectivamente una gran cantidad de pesos y parámetros. Cuando decimos que estamos “utilizando ChatGPT” u otro LLM en la actualidad, en realidad estamos interactuando con una aplicación que se encuentra en la parte superior del modelo de LLM subyacente. Esa aplicación sirve para permitir que el modelo se utilice de manera práctica.

Ahora, unamos los dos temas anteriores para llegar al punto central…

Llevando los LLM al siguiente nivel

En mi opinión, el futuro de los LLM radica en combinar los dos conceptos mencionados anteriormente. Para hacer que los LLM sean realmente útiles, precisos y fáciles de usar, será necesario crear capas de aplicaciones sofisticadas en la parte superior que utilicen un enfoque de modelado en conjunto para brindar a los usuarios las respuestas que desean. ¿Qué significa esto? Profundicemos más.

Si le hago la misma pregunta a un motor de búsqueda tradicional y a un modelo de LLM, es posible que obtenga respuestas muy similares o muy diferentes, dependiendo de diversos factores. Sin embargo, es probable que cada respuesta contenga algo de verdad y utilidad que se pueda extraer. Las futuras aplicaciones de LLM diseñarán métodos para extraer resultados no solo de LLM, sino también de motores de búsqueda tradicionales y otras fuentes. Luego, contrastarán y cotejarán estos resultados para verificar la precisión de los datos. La respuesta final que se devolverá al usuario será la “mejor” combinación de los diversos resultados, junto con una evaluación de qué tan confiable se considera que es la respuesta.

En otras palabras, si un LLM y un motor de búsqueda proporcionan casi la misma respuesta, es muy probable que sea mayormente precisa. Si las respuestas difieren mucho y no se pueden explicar esas diferencias, podríamos tener un problema con la confiabilidad de los resultados, y se nos podría aconsejar que realicemos verificaciones manuales adicionales de la información.

Incorporando motores adicionales a la mezcla

Mi enfoque de modelado en conjunto previsto también hará uso de una variedad de motores especializados. Por ejemplo, Wolfram|Alpha tiene un complemento que permitirá que ChatGPT le transfiera tareas computacionales. Esto es importante porque ChatGPT es conocido por su falta de habilidad en los cálculos, ya que no es un motor de cálculo en sí. Al transferir las tareas computacionales a un motor especializado en ese tipo de cálculos, la respuesta final generada por la aplicación de LLM será superior a la respuesta generada sin utilizar dicho motor.

Con el tiempo, las aplicaciones de LLM evolucionarán para utilizar una amplia gama de motores especializados que manejan tipos específicos de cómputos. Puede haber motores que manejen preguntas relacionadas con disciplinas científicas específicas, como la genética o la química, que estén especialmente capacitados para los cálculos y el contenido asociado con esas disciplinas. El hilo conductor será la información basada en texto que proporcionamos a la aplicación, que luego puede analizar y pasar a los diferentes motores antes de combinar todas las respuestas recibidas, sintetizar una respuesta combinada y devolvérnosla.

Es crucial reconocer que el proceso de combinar diversas respuestas es un reto, posiblemente más complejo que cualquier modelo subyacente. Por lo tanto, llevará tiempo darse cuenta del potencial de este enfoque.

Ganando con las aplicaciones de conjunto de LLM

Con el tiempo, es fácil imaginar una aplicación de LLM que envía solicitudes a múltiples modelos subyacentes de LLM (un conjunto de modelos de LLM), así como a una variedad de motores especializados para tipos específicos de contenido (un conjunto de motores especializados), antes de consolidar todos los resultados en una respuesta cohesiva (¡un conjunto de conjuntos, por así decirlo!). En otras palabras, una aplicación de LLM exitosa irá mucho más allá de simplemente enviar una solicitud directamente a un modelo subyacente de LLM para su procesamiento.

Creo que los LLM ya se están popularizando. El dinero y el futuro no radican tanto en mejorar los LLM en este momento (aunque las mejoras seguirán llegando), sino en proporcionar mejores aplicaciones. Estas aplicaciones aprovecharán un enfoque de modelado en conjunto para utilizar diversos LLM disponibles, junto con otros modelos y motores especializados que manejen tipos específicos de cómputos y contenido. El resultado será un conjunto de soluciones poderosas que ayudarán a que la IA alcance su potencial.

También te Puede Interesar

Sobre nosotros

About Data Blog es un espacio traido a ti por Gold Light Data con el objetivo de investigar y compartir información valiosa sobre Big Data, Inteligencia Artificial, Machine Learning, Analítica de Negocio e Inteligencia de Negocios.

 

Estamos comprometidos con la investigación y nuestra misión siempre será compartir ese conocimiento para la evolución tecnológica y de negocio.

© 2022 About Data. Created by WeApp4U