Desafío: desarrollar robots con sentido común para una interacción más humana
Con la ayuda de un amplio modelo lingüístico, ingenieros del MIT han conseguido que unos robots se autocorrijan tras sufrir un incidente y continúen con su tarea asignada.
Por Jennifer Chu/ MIT News
Los ingenieros están enseñando a los robots a realizar tareas domésticas cada vez más complicadas, desde limpiar derrames hasta servir comida. Muchos de estos robots domésticos aprenden por imitación: están programados para copiar los movimientos que un humano les guía físicamente.
Resulta que los robots son excelentes imitadores. Pero a menos que los ingenieros los programen también para adaptarse a todos los golpes y empujones posibles, los robots no saben necesariamente cómo manejar estas situaciones, a no ser que empiecen su tarea desde el principio.
Para superar estas barreras, ingenieros del Instituto Tecnológico de Massachusetts (MIT) pretenden dar a los robots un poco de sentido común cuando se enfrentan a situaciones que los desvían de su camino entrenado. Han desarrollado un método que conecta los datos de movimiento del robot con el conocimiento de sentido común de los modelos de lenguaje grandes o LLM, un algoritmo de aprendizaje profundo que puede realizar una variedad de tareas de procesamiento de lenguaje natural (NLP).
Su enfoque permite a un robot dividir lógicamente muchas tareas domésticas determinadas en subtareas y adaptarse físicamente a las interrupciones dentro de una subtarea para que el robot pueda seguir adelante sin tener que volver atrás y comenzar una tarea desde cero, y sin que los ingenieros tengan que programar explícitamente soluciones para cada posible piedra en el camino.
Un robot capaz de autocorregir los errores de ejecución y mejorar el éxito general de la tarea programada.
"El aprendizaje por imitación es un método habitual que permite a los robots domésticos realizar su trabajo. Pero si un robot imita ciegamente las trayectorias de movimiento de un humano, pueden acumularse pequeños errores que acaben desbaratando el resto de la ejecución— explica Yanwei Wang, estudiante de posgrado del Departamento de Ingeniería Eléctrica e Informática (EECS) del MIT. Y añade—: Con nuestro método, un robot puede autocorregir los errores de ejecución y mejorar el éxito general de la tarea".
Wang y sus colegas detallan su nuevo enfoque en un estudio que presentarán en la Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR) el próximo mes de mayo. Los coautores del estudio incluyen a los estudiantes graduados de EECS Tsun-Hsuan Wang y Jiayuan Mao; Michael Hagenow, un postdoctorado en el Departamento de Aeronáutica y Astronáutica del MIT (AeroAstro); y Julie Shah, profesora H.N. Slater de Aeronáutica y Astronáutica en el MIT.
Los investigadores han ilustrado cómo opera su nuevo método asignando al robot una tarea sencilla: recoger canicas de un cuenco y depositarlas en otro. Para realizar esta labor, los ingenieros suelen mover un robot a través de los movimientos de recoger y verter, todo en una trayectoria fluida. Podrían hacerlo varias veces para que el robot imitara varias demostraciones humanas.
Etiquetar las subtareas.
"Pero la demostración humana es una trayectoria larga y continua", explica Wang.
El equipo se dio cuenta de que, aunque un humano puede demostrar una sola tarea de una sola vez, esa tarea depende de una secuencia de subtareas o trayectorias. Por ejemplo, el robot tiene que meter la mano en un cuenco antes de poder recoger las canicas, y debe cogerlas antes de pasar al cuenco vacío, y así sucesivamente.
Si un robot es empujado o llevado a cometer un error durante cualquiera de estas subtareas, su único recurso es parar y empezar desde cero, a menos que los ingenieros etiquetaran explícitamente cada subtarea y programaran o recopilaran nuevas demostraciones para que el robot se recuperara de dicho fallo y le permitiera autocorregirse en ese mismo instante.
"Ese nivel de planificación es muy tedioso", afirma Wang.
En cambio, él y sus colegas descubrieron que parte de este trabajo podían hacerlo automáticamente los LLM. Estos modelos de aprendizaje profundo procesan inmensas bibliotecas de texto, que utilizan para establecer conexiones entre palabras, frases y párrafos. A través de estas conexiones, un LLM puede entonces generar nuevas frases basadas en lo que ha aprendido sobre el tipo de palabra que es probable que siga a la última.
Por su parte, los investigadores descubrieron que, además de frases y párrafos, se puede pedir a un LLM que elabore una lista lógica de subtareas relacionadas con una tarea determinada. Por ejemplo, si se le pide que enumere las acciones necesarias para recoger canicas de un cuenco a otro, un LLM puede producir una secuencia de verbos como "alcanzar", "recoger", "transportar" y "verter".
"Los LLM tienen una forma de decirte cómo hacer cada paso de una tarea, en lenguaje natural. La demostración continua de un humano es la encarnación de esos pasos, en el espacio físico— comenta Wang. Y continúa—: Y queríamos conectar las dos cosas, para que un robot supiera automáticamente en qué fase de una tarea se encuentra, y fuera capaz de replanificar y recuperarse por sí mismo".
Asignación de canicas.
Para su nuevo enfoque, el equipo desarrolló un algoritmo que conecta automáticamente la etiqueta de lenguaje natural de un LLM para una subtarea concreta con la posición de un robot en el espacio físico o con una imagen que codifica el estado del robot.
La asignación de las coordenadas físicas de un robot, o de una imagen de su estado, a una etiqueta en lenguaje natural se conoce como grounding. El nuevo algoritmo del equipo está diseñado para aprender un clasificador de conexión a tierra, lo que significa que aprende a identificar automáticamente en qué subtarea semántica se encuentra un robot —por ejemplo, alcanzar frente a recoger— dadas sus coordenadas físicas o una imagen.
"El clasificador de base facilita este diálogo entre lo que el robot está haciendo en el espacio físico y lo que el LLM sabe sobre las subtareas y las restricciones a las que hay que prestar atención dentro de cada subtarea", explica Wang.
El equipo del MIT demostró esta estrategia en experimentos con un brazo robótico al que entrenaron para recoger canicas. Los experimentadores adiestraron al robot guiándolo físicamente en la tarea de alcanzar primero un cuenco, recoger canicas, transportarlas a un cuenco vacío y verterlas en él. Después de algunas demostraciones, el equipo utilizó un LLM preentrenado y le pidió que enumerara los pasos necesarios para llevar canicas de un cuenco a otro.
A continuación, los investigadores utilizaron su nuevo algoritmo para conectar las subtareas definidas por el LLM con los datos de la trayectoria de movimiento del robot. El algoritmo aprendió automáticamente a asignar las coordenadas físicas del robot en las trayectorias y la vista de imagen correspondiente a una subtarea determinada.
¿Un empujón? Nada que no pueda superarse.
A continuación, el equipo dejó que el robot realizara la tarea de recogida por sí solo, utilizando los clasificadores de base recién aprendidos. A medida que el robot avanzaba por los pasos de la tarea, los experimentadores empujaron y desviaron al robot de su trayectoria y le quitaron las canicas de la cuchara en varios puntos.
En lugar de detenerse y empezar de nuevo desde el principio, o continuar a ciegas sin llevar canicas en la cuchara, el robot fue capaz de autocorregirse y completar cada subtarea antes de pasaral siguiente paso; por ejemplo, se aseguraba de haber recogido bien las canicas antes de transportarlas al otro cuenco.
"Con nuestro método, cuando el robot comete errores, no necesitamos pedirle a los humanos que lo programen ni que hagan demostraciones adicionales de cómo recuperarse de los fallos— explica Wang. Y concluye—: Eso es muy emocionante, porque ahora hay un gran esfuerzo para entrenar robots domésticos con datos recopilados en sistemas de teleoperación. Nuestro algoritmo puede convertir esos datos de entrenamiento en un comportamiento de robot robusto que puede realizar tareas complejas, a pesar de las perturbaciones externas”.
Publicado con el permiso de MIT News