Robots que "aciertan a la primera" gracias al aprendizaje aleatorio de la IA
Ingenieros desarrollan un algoritmo de inteligencia artificial para robots inteligentes que les ayuda a aprender habilidades complejas de forma rápida y fiable. Y consiguen hacer bien su trabajo en el primer intento.
Por Amanda Morris
Ingenieros de la Universidad del Noroeste, en Estados Unidos, han desarrollado un nuevo algoritmo de inteligencia artificial (IA) diseñado específicamente para la robótica inteligente.
Al ayudar a los robots a aprender habilidades complejas de manera rápida y confiable, el nuevo método podría mejorar significativamente la practicidad —y la seguridad— de los robots para una variedad de aplicaciones, como es el caso de los automóviles autónomos, los drones de reparto, los asistentes domésticos y la automatización.
Llamado aprendizaje por refuerzo de máxima difusión (MaxDiff RL), el éxito del algoritmo radica en su capacidad de alentar a los robots a explorar sus entornos de la manera más aleatoria posible para obtener un conjunto diverso de experiencias. Esta aleatoriedad diseñada mejora la calidad de los datos que los robots recopilan sobre su propio entorno. Y, al utilizar infirmormación de mayor calidad, los robots simulados demostraron un aprendizaje más rápido y eficiente, y mejoraron su confiabilidad y rendimiento en general.
Con la nueva IA, los robots aprendieron nuevas tareas y as llevaron a cabo con éxito a la primera.
Cuando se probaron con otras plataformas de IA, los robots simulados que utilizaban el nuevo algoritmo de la Universidad del Noroeste superaron consistentemente a los modelos de última generación. De hecho, el nuevo algoritmo funciona tan bien que los robots aprendieron nuevas tareas y luego las realizaron con éxito tras un solo intento. Esto contrasta marcadamente con los modelos de IA actuales, que permiten un aprendizaje más lento mediante prueba y error.
La investigación aparece publicada en la revista Nature Machine Intelligence.
"Otros marcos de IA pueden ser algo poco confiables— comenta el director del estudio Thomas Berrueta, de la Universidad del Noroeste. Y añade—: A veces dan en el clavo, pero otras veces fallan por completo. Con nuestro marco, siempre que el robot sea capaz de resolver la tarea, cada vez que lo enciendas puedes esperar que haga exactamente lo que se le ha pedido. Esto facilita la interpretación de los éxitos y fracasos del robot, algo crucial en un mundo cada vez más dependiente de la IA".
Berrueta es becario presidencial de la Universidad del Norte y candidato a doctor en Ingeniería Mecánica en la Facultad de Ingeniería McCormick. El experto en robótica Todd Murphey, profesor de Ingeniería Mecánica en McCormick y asesor de Berrueta, es el autor principal del artículo. Berrueta y Murphey son coautores del artículo junto con Allison Pinosky, también doctoranda en el laboratorio de Murphey.
La desconexión incorpórea.
Para entrenar algoritmos de aprendizaje automático, los investigadores y desarrolladores utilizan grandes cantidades de datos, que los seres humanos filtran y seleccionan cuidadosamente. La IA aprende de estos datos de entrenamiento mediante el método de ensayo y error hasta alcanzar resultados óptimos.
Aunque este proceso funciona bien para sistemas sin cuerpo, como ChatGPT y Google Gemini (antes Bard), no lo hace para sistemas de IA con cuerpo, como los robots. Los robots, en cambio, recopilan datos por sí mismos, sin el lujo de contar con curadores humanos.
"Los algoritmos tradicionales no son compatibles con la robótica en dos sentidos distintos— afirma Murphey. Y añade—: En primer lugar, los sistemas incorpóreos pueden aprovecharse de un mundo en el que no se aplican las leyes físicas. En segundo lugar, los fallos individuales no tienen consecuencias. En las aplicaciones informáticas, lo único que importa es tener éxito la mayoría de las veces. En robótica, un fallo puede ser catastrófico".
Para resolver esta desconexión, Berrueta, Murphey y Pinosky se propusieron desarrollar un algoritmo novedoso que garantizara que los robots recogiesen datos de alta calidad sobre la marcha. En esencia, MaxDiff RL ordena a los robots que se muevan de forma más aleatoria para recopilar datos completos y diversos sobre su entorno. Mediante el aprendizaje a través de experiencias aleatorias autogestionadas, los robots adquieren las habilidades necesarias para realizar tareas útiles.
Un brazo robótico en una cocina que aprende a cargar el lavavajillas.
Para probar el nuevo algoritmo, los investigadores lo compararon con modelos actuales de última generación. Utilizando simulaciones por computadora, los investigadores pidieron a robots simulados que realizaran una serie de tareas estándar. En general, los robots que utilizan MaxDiff RL aprendieron más rápido que los otros modelos. También realizaron tareas correctamente de manera mucho más consistente y confiable que otros.
Quizá aún más impresionante: los robots que utilizan el método MaxDiff RL a menudo logran realizar correctamente una tarea en un solo intento. Y eso fue incluso cuando empezaron sin ningún conocimiento del entorno.
"Nuestros robots eran más rápidos y ágiles, capaces de generalizar eficazmente lo aprendido y aplicarlo a nuevas situaciones— explica Berrueta. Y continúa—: Para aplicaciones del mundo real en las que los robots no pueden permitirse un tiempo interminable de ensayo y error, esto supone una gran ventaja".
Dado que MaxDiff RL es un algoritmo general, puede utilizarse en diversas aplicaciones. Los investigadores esperan que resuelva los problemas fundamentales que frenan su desarrollo y que, en última instancia, allane el camino hacia una toma de decisiones fiable en la robótica inteligente.
"No tiene por qué utilizarse solo en vehículos robóticos que se desplazan— puntualiza Pinosky. Y continúa—: También podría emplearse con robots estacionarios, como un brazo robótico en una cocina que aprende a cargar el lavavajillas". A medida que las tareas y los entornos físicos se complican, el papel de la corporeidad es aún más importante en el proceso de aprendizaje. Este es un paso importante hacia sistemas reales que realicen tareas más complicadas e interesantes".
Información facilitada por la Universidad del Noroeste -Adaptación: Enrique Coperías / Rexmolón Producciones
Fuente: Berrueta, T.A., Pinosky, A. & Murphey, T.D. Maximum diffusion reinforcement learning. Nature Machine Intelligence (2024). DOI: https://doi.org/10.1038/s42256-024-00829-3