El equipo de robótica de DeepMind, propiedad de Google, ha revelado avances significativos que prometen mejorar la velocidad, precisión y seguridad en las decisiones de los robots en entornos dinámicos. Entre estas innovaciones se encuentra un sistema para recolectar datos de entrenamiento que incluye una «Constitución para Robots», para asegurar que tu asistente de oficina robótico pueda conseguirte más papel para la impresora sin poner en peligro a sus colegas humanos.
El sistema de recolección de datos de Google, conocido como AutoRT, utiliza un modelo de lenguaje visual (VLM) y un modelo de lenguaje extenso (LLM) que trabajan en conjunto para comprender su entorno, adaptarse a configuraciones desconocidas y seleccionar tareas apropiadas. La Constitución para Robots, inspirada en las “Tres Leyes de la Robótica” de Isaac Asimov (no podía ser de otra manera), se describe como un conjunto de “indicaciones centradas en la seguridad” que instruyen al LLM para evitar elegir tareas que involucren humanos, animales, objetos afilados e incluso electrodomésticos.
Para reforzar la seguridad, DeepMind programó a los robots para detenerse automáticamente si la fuerza ejercida en sus articulaciones supera un umbral específico e incluyó un interruptor de seguridad físico que los operadores humanos pueden utilizar para desactivarlos. A lo largo de siete meses, Google desplegó una flota de 53 robots AutoRT en cuatro edificios de oficinas diferentes y llevó a cabo más de 77,000 pruebas. Algunos robots fueron controlados de forma remota por operadores humanos, mientras que otros operaron según un guion o completamente de manera autónoma utilizando el modelo de aprendizaje de inteligencia artificial Robotic Transformer (RT-2) de Google.
Los robots utilizados en la prueba tienen un aspecto más funcional que llamativo, equipados únicamente con una cámara, un brazo robótico y una base móvil. “Para cada robot, el sistema utiliza un VLM para comprender su entorno y los objetos a la vista. Luego, un LLM sugiere una lista de tareas creativas que el robot podría llevar a cabo, como ‘Colocar el refrigerio en la encimera’, y desempeña el papel de tomador de decisiones para seleccionar una tarea apropiada para que el robot la lleve a cabo”, señaló Google en su publicación de blog.
La otra nueva tecnología de DeepMind incluye SARA-RT, una arquitectura de red neuronal diseñada para mejorar la precisión y velocidad del existente Robotic Transformer RT-2. Además, se anunció RT-Trajectory, que agrega contornos en 2D para ayudar a los robots a realizar tareas físicas específicas, como limpiar una mesa.
A pesar de estos avances, aún parece que estamos lejos de tener robots que sirvan bebidas o acomoden almohadas de manera autónoma. Sin embargo, cuando estén disponibles, es probable que hayan aprendido de un sistema como AutoRT.