Hogar Inteligencia Artificial Aprendiendo a hacer crecer modelos de aprendizaje automático | Noticias del MIT

Aprendiendo a hacer crecer modelos de aprendizaje automático | Noticias del MIT

por Iván Torres
0 comentario

No es ningún secreto que ChatGPT de OpenAI tiene algunas capacidades increíbles; por ejemplo, el chatbot es capaz de escribir poesía similar a los sonetos de Shakespeare y de depurar código para programas de computadora. Estas habilidades son posibles gracias al modelo masivo de aprendizaje automático en el que se basa ChatGPT. Los investigadores han descubierto que cuando este tipo de modelos se vuelven lo suficientemente grandes, surgen capacidades extraordinarias.

Pero los modelos más grandes también requieren más tiempo y dinero para entrenar. El proceso de entrenamiento implica mostrar cientos de miles de millones de ejemplos a un modelo. La recopilación de tantos datos es un proceso complicado en sí mismo. Luego vienen los costos monetarios y ambientales de hacer funcionar muchas computadoras poderosas durante días o semanas para entrenar un modelo que puede tener miles de millones de parámetros.

“Se ha estimado que los modelos de entrenamiento a la escala en la que se supone que se ejecuta ChatGPT podrían costar millones de dólares, solo para una sola ejecución de entrenamiento. ¿Podemos mejorar la eficiencia de estos métodos de entrenamiento, de modo que aún podamos obtener buenos modelos en menos tiempo y por menos dinero? Proponemos hacer esto aprovechando modelos de lenguaje más pequeños que han sido previamente entrenados”, dice Yoon Kim, profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL).

En lugar de descartar una versión anterior de un modelo, Kim y sus colaboradores la utilizan como base para la construcción de un nuevo modelo. Usando el aprendizaje automático, su método aprende a “hacer crecer” un modelo más grande a partir de un modelo más pequeño de una manera que codifica el conocimiento que el modelo más pequeño ya ha adquirido. Esto permite un entrenamiento más rápido del modelo más grande.

Su técnica ahorra alrededor de 50% del costo computacional requerido para entrenar un modelo grande, en comparación con los métodos que entrenan un nuevo modelo desde cero. Además, los modelos entrenados con el método MIT funcionaron igual o mejor que los modelos entrenados con otras técnicas que también usan modelos más pequeños para permitir un entrenamiento más rápido de modelos más grandes.

Reducir el tiempo que lleva entrenar modelos complejos podría ayudar a los investigadores a avanzar más rápido con menos gastos, al tiempo que reduce las emisiones de carbono generadas durante el proceso de entrenamiento. También podría permitir que grupos de investigación más pequeños trabajen con estos modelos masivos, abriendo potencialmente la puerta a muchos avances nuevos.

“A medida que buscamos democratizar este tipo de tecnologías, será más importante hacer que la capacitación sea más rápida y menos costosa”, dice Kim, autor principal de un paper sobre esta técnica.

Kim y su estudiante de posgrado Lucas Torroba Hennigen escribieron el artículo con el autor principal Peihao Wang, estudiante de posgrado de la Universidad de Texas en Austin, junto con otros colaboradores del MIT-IBM Watson AI Lab y la Universidad de Columbia. La investigación será presentada en la Conferencia Internacional sobre Representaciones de Aprendizaje.

Cuanto más grande, mejor

Los modelos de lenguaje grandes como GPT-3, que es el núcleo de ChatGPT, se construyen utilizando una arquitectura de red neuronal llamada transformador. Una red neuronal, basada libremente en el cerebro humano, se compone de capas de nodos interconectados o “neuronas”. Cada neurona contiene parámetros, que son variables aprendidas durante el proceso de entrenamiento que la neurona utiliza para procesar datos.

Las arquitecturas de transformadores son únicas porque, a medida que estos tipos de modelos de redes neuronales crecen, logran resultados mucho mejores.

“Esto ha llevado a una carrera armamentista de empresas que intentan entrenar transformadores cada vez más grandes en conjuntos de datos cada vez más grandes. Más que otras arquitecturas, parece que las redes de transformadores mejoran mucho con el escalado. Simplemente no estamos exactamente seguros de por qué es así”, dice Kim.
Estos modelos suelen tener cientos de millones o miles de millones de parámetros que se pueden aprender. Entrenar todos estos parámetros desde cero es costoso, por lo que los investigadores buscan acelerar el proceso.

Una técnica eficaz se conoce como modelo de crecimiento. Usando el método de crecimiento del modelo, los investigadores pueden aumentar el tamaño de un transformador copiando neuronas, o incluso capas enteras de una versión anterior de la red, y luego apilándolas encima. Pueden ampliar una red agregando nuevas neuronas a una capa o hacerla más profunda agregando capas adicionales de neuronas.

A diferencia de los enfoques anteriores para el crecimiento del modelo, los parámetros asociados con las nuevas neuronas en el transformador expandido no son solo copias de los parámetros de la red más pequeña, explica Kim. Más bien, son combinaciones aprendidas de los parámetros del modelo más pequeño.

Aprendiendo a crecer

Kim y sus colaboradores utilizan el aprendizaje automático para aprender un mapeo lineal de los parámetros del modelo más pequeño. Este mapa lineal es una operación matemática que transforma un conjunto de valores de entrada, en este caso los parámetros del modelo más pequeño, en un conjunto de valores de salida, en este caso los parámetros del modelo más grande.

Su método, al que llaman operador de crecimiento lineal aprendido (LiGO), aprende a expandir el ancho y la profundidad de una red más grande a partir de los parámetros de una red más pequeña de una manera basada en datos.

Pero el modelo más pequeño en realidad puede ser bastante grande, tal vez tenga cien millones de parámetros, y los investigadores podrían querer hacer un modelo con mil millones de parámetros. Entonces, la técnica LiGO divide el mapa lineal en partes más pequeñas que un algoritmo de aprendizaje automático puede manejar.

LiGO también expande el ancho y la profundidad simultáneamente, lo que lo hace más eficiente que otros métodos. Un usuario puede ajustar qué tan ancho y profundo quiere que sea el modelo más grande cuando ingresa el modelo más pequeño y sus parámetros, explica Kim.

Cuando compararon su técnica con el proceso de entrenar un nuevo modelo desde cero, así como con los métodos de crecimiento del modelo, fue más rápido que todas las líneas de base. Su método ahorra alrededor del 50 por ciento de los costos computacionales necesarios para entrenar los modelos de visión y lenguaje, mientras que a menudo mejora el rendimiento.

Los investigadores también descubrieron que podían usar LiGO para acelerar el entrenamiento de transformadores incluso cuando no tenían acceso a un modelo preentrenado más pequeño.

“Me sorprendió lo bien que funcionaron todos los métodos, incluido el nuestro, en comparación con la inicialización aleatoria, las líneas base de entrenamiento desde cero”. Kim dice.

En el futuro, Kim y sus colaboradores esperan aplicar LiGO a modelos aún más grandes

También te Puede Interesar

Sobre nosotros

About Data Blog es un espacio traido a ti por Gold Light Data con el objetivo de investigar y compartir información valiosa sobre Big Data, Inteligencia Artificial, Machine Learning, Analítica de Negocio e Inteligencia de Negocios.

 

Estamos comprometidos con la investigación y nuestra misión siempre será compartir ese conocimiento para la evolución tecnológica y de negocio.

© 2022 About Data. Created by WeApp4U