Bienvenidos a AboutData.blog de Gold Light Data, donde exploramos lo último en Big Data, IA, ML, Analítica de Negocios e Inteligencia de Negocios. Únete a nosotros para mantenerte informado y empoderado en el dinámico mundo de la tecnología de datos.

Resolver la dinámica cerebral da lugar a modelos flexibles de aprendizaje automático | Noticias del MIT

El año pasado, los investigadores del MIT anunciaron que habían construido redes neuronales “líquidas”, inspiradas en los cerebros de especies pequeñas: una clase de modelos de aprendizaje automático robustos y flexibles que aprenden en el camino y pueden adaptarse a condiciones cambiantes, para tareas críticas como caminar y volar. La flexibilidad de estas redes neuronales “líquidas” significó impulsar el linaje de nuestro mundo conectado, lo que permitió una mejor toma de decisiones para muchas tareas que involucran datos de series temporales, como el monitoreo del cerebro y el corazón, el pronóstico del tiempo y el precio de las acciones.

Pero estos modelos se vuelven computacionalmente costosos a medida que aumenta su número de neuronas y sinapsis y requieren programas informáticos complejos para resolver sus complicadas matemáticas subyacentes. Y toda esta matemática, similar a muchos fenómenos físicos, se vuelve más difícil de resolver con el tamaño, lo que significa calcular muchos pasos pequeños para llegar a una solución.

Ahora, el mismo equipo de científicos ha descubierto una forma de aliviar este cuello de botella; consiste en resolver la ecuación diferencial detrás de la interacción de dos neuronas a través de sinapsis para desbloquear un nuevo tipo de algoritmos de inteligencia artificial rápidos y eficientes. Este modo tiene las mismas características de las redes neuronales líquidas (flexibles, causales, robustas y explicables), pero son órdenes de magnitud más rápidos y escalables. Por lo tanto, este tipo de red neuronal podría usarse para cualquier tarea que implique obtener información sobre los datos a lo largo del tiempo, ya que son compactas y adaptables incluso después del entrenamiento, mientras que muchos modelos tradicionales son fijos. Sin embargo, no ha habido una solución conocida desde 1907, el año en que se introdujo la ecuación diferencial del modelo neuronal.

Los modelos, denominados redes neuronales de “tiempo continuo de forma cerrada” (CfC), superaron a sus contrapartes de última generación en una gran cantidad de tareas, con aceleraciones y rendimiento considerablemente más altos en el reconocimiento de actividades humanas a partir de sensores de movimiento, modelado de dinámicas físicas de un robot caminante y procesamiento secuencial de imágenes basado en eventos. En una tarea de predicción médica, por ejemplo, los nuevos modelos fueron 220 veces más rápidos en una muestra de 8000 pacientes.

“Los nuevos modelos de aprendizaje automático que llamamos ‘CfC’ reemplazan la ecuación diferencial que define el cómputo de la neurona con una aproximación de forma cerrada, conservando las hermosas propiedades de las redes líquidas sin necesidad de integración numérica”, dice la profesora del MIT Daniela Rus, directora del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y autora principal del artículo nuevo. “Los modelos CfC son causales, compactos, explicables y eficientes para entrenar y predecir. Abren el camino hacia el aprendizaje automático confiable para aplicaciones críticas para la seguridad”.

Mantener las cosas líquidas

Las ecuaciones diferenciales nos permiten calcular el estado del mundo o un fenómeno a medida que evoluciona, pero no a lo largo del tiempo, solo paso a paso. Para modelar los fenómenos naturales a lo largo del tiempo y comprender el comportamiento anterior y futuro, como el reconocimiento de la actividad humana o la trayectoria de un robot, por ejemplo, el equipo buscó en una bolsa de trucos matemáticos: una solución de “forma cerrada” que modela la descripción completa de un sistema completo, en un solo paso de cálculo.

Con sus modelos, uno puede calcular esta ecuación en cualquier momento en el futuro y en cualquier momento en el pasado. No solo eso, sino que la velocidad de cálculo es mucho más rápida porque no se necesita resolver la ecuación diferencial paso a paso.

Imagina una red neuronal de extremo a extremo que recibe información de conducción de una cámara montada en un automóvil. La red está entrenada para generar resultados, como el ángulo de dirección del automóvil. En 2020, el equipo resolvió esto utilizando redes neuronales líquidas con 19 nodos, por lo que 19 neuronas más un pequeño módulo de percepción podrían conducir un automóvil. Una ecuación diferencial describe cada nodo de ese sistema. Con la solución de forma cerrada, si se reemplaza dentro de esta red, se le daría el comportamiento exacto, ya que es una buena aproximación de la dinámica real del sistema. Por lo tanto, se puede resolver el problema con un número aún menor de neuronas, lo que significa que sería más rápido y menos costoso computacionalmente.

Estos modelos pueden recibir entradas como series de tiempo (eventos que ocurrieron en el tiempo), que podrían usarse para clasificar, controlar un automóvil, mover un robot humanoide o pronosticar eventos financieros y médicos. Con todos estos diversos modos, también se puede aumentar la precisión, la solidez y el rendimiento y, lo que es más importante, la velocidad de cálculo, que a veces se presenta como una compensación.

Resolver esta ecuación tiene implicaciones de gran alcance para el avance de la investigación en sistemas de inteligencia tanto naturales como artificiales. “Cuando tenemos una descripción de forma cerrada de la comunicación de las neuronas y las sinapsis, podemos construir modelos computacionales de cerebros con miles de millones de células, una capacidad que no es posible hoy en día debido a la alta complejidad computacional de los modelos de neurociencia. La ecuación de forma cerrada podría facilitar tales simulaciones de gran nivel y, por lo tanto, abre nuevas vías de investigación para que podamos comprender la inteligencia”, dice Ramin Hasani, afiliado de investigación de MIT CSAIL.

Aprendizaje portable

Además, existe evidencia temprana de modelos CfC líquidos en el aprendizaje de tareas en un entorno a partir de entradas visuales y la transferencia de sus habilidades aprendidas a un entorno completamente nuevo sin capacitación adicional. Esto se llama generalización fuera de distribución, que es uno de los desafíos abiertos más fundamentales de la investigación de inteligencia artificial.

“Los sistemas de redes neuronales basados en ecuaciones diferenciales son difíciles de resolver y escalar, digamos, a millones y miles de millones de parámetros. Obtener esa descripción de cómo las neuronas interactúan entre sí, no solo el umbral, sino resolver la dinámica física entre las células nos permite construir redes neuronales a mayor escala”, dice Hasani. “Este marco puede ayudar a resolver tareas de aprendizaje automático más complejas, lo que permite un mejor aprendizaje de representación, y debería ser el componente básico de cualquier futuro sistema de inteligencia integrado”.

“Las arquitecturas de redes neuronales recientes, como las ODE neuronales y las redes neuronales líquidas, tienen capas ocultas compuestas de sistemas dinámicos específicos que representan estados latentes infinitos en lugar de pilas de capas explícitas”, dice Sildomar Monteiro, líder del grupo de inteligencia artificial y aprendizaje automático en Aurora Flight Sciences, una empresa de Boeing. “Estos modelos definidos implícitamente han mostrado un rendimiento de última generación y requieren muchos menos parámetros que las arquitecturas convencionales. Sin embargo, su adopción práctica se ha visto limitada debido al alto costo computacional requerido para el entrenamiento y la inferencia”. Agrega que este documento “muestra una mejora significativa en la eficiencia de cómputo para esta clase de redes neuronales… [y] tiene el potencial de permitir una gama más amplia de aplicaciones prácticas relevantes para los sistemas comerciales y de defensa críticos para la seguridad”.

Tags :

Author: Iván Torres
Author: Iván Torres

Iván Torres actualmente cuenta con una Maestría en Ciencias en Analítica de Negocios e Inteligencia Artificial Aplicada, otorgada por la Universidad de Charleston (West Virginia, USA), también es profesor de Ingeniería y Maestría en la Universidad TecMilenio, y ha contribuido en diferentes proyectos tecnológicos como analista, consultor y líder para empresas de ámbito internacional acumulando más de 15 años de experiencia en los campos de desarrollo de Software, Big Data, analítica de negocio e I.A. Editor de About Data Blog.

Deja un comentario

Categories

Related Post