La creciente convergencia entre la robótica y la inteligencia artificial (IA) ha sido un tema de gran interés en los últimos años. No obstante, los avances en el diseño de robots humanoides capaces de realizar tareas fÃsicas complejas no valdrÃan de mucho sin un sistema de IA que les permita entender y reaccionar ante su entorno. Sin estos algoritmos avanzados, cualquier robot, por más moderno que sea, serÃa apenas un conjunto de hardware sofisticado sin funcionalidad práctica. Son precisamente estos desarrollos algorÃtmicos los que convierten el potencial bruto en máquinas que aprenden, optimizan su rendimiento y responden de forma autónoma a los desafÃos del mundo real.
Desde el célebre ASIMO de Honda, hasta Sophia, Optimus de Tesla y Figure, la presencia de la IA en la robótica humanoide ha crecido significativamente. Sin embargo, aún estamos lejos de crear máquinas que igualen la versatilidad del cuerpo humano, ya que todavÃa enfrentan dificultades para moverse en ambientes no controlados y manejar objetos comunes es todo un desafÃo.
Gemini Robotics: La Iniciativa de Google para Llevar la IA a lo FÃsico
En el ámbito digital, la inteligencia artificial avanza a un ritmo vertiginoso, capaz de sostener conversaciones casi humanas, superar exámenes con notas impresionantes y resolver problemas complejos rápidamente. Esta disparidad subraya que, a pesar del rápido progreso de la IA, su integración con la robótica aún tiene un largo camino por delante.
Estos desafÃos han llevado al desarrollo de una nueva generación de modelos de IA especÃficos para la robótica. Google, como no podrÃa ser de otra manera, está a la vanguardia de estas innovaciones con Gemini 2.0, un sistema que ofrece dos variantes diseñadas para mejorar la interacción y control de robots humanoides.
Gemini Robotics se centra en la visión, el lenguaje y la acción (VLA), lo que permite un control directo más eficiente en entornos dinámicos. En paralelo, Gemini Robotics-ER está dirigido a expertos en robótica, proporcionándoles herramientas para crear y ejecutar programas con habilidades de razonamiento avanzado.
Gemini Robotics-ER es notable en el razonamiento espacial, destacando en la detección y señalamiento de objetos en 3D.
Google ha identificado tres atributos clave que los robots deben poseer para ser realmente útiles para las personas.
- Generalidad. Los robots efectivos no solo deben realizar tareas preestablecidas, sino también adaptarse a situaciones nuevas y resolver problemas emergentes. Tienen que operar en ambientes desconocidos, manejar objetos no familiares e interpretar diversas instrucciones sin necesitar entrenamiento previo. Gemini Robotics ha demostrado duplicar el rendimiento en estas áreas en comparación con otros modelos de visión-lenguaje-acción de última generación.
- Interactividad. En un entorno cambiante, los robots deben comunicarse naturalmente y responder en tiempo real. Gemini Robotics entiende comandos en lenguaje natural y en múltiples idiomas, ajustando su comportamiento según el diálogo y el entorno. Mantiene una vigilancia constante sobre su entorno para adaptar sus acciones ante nuevas instrucciones o cambios.
- Destreza. Las tareas humanas que parecen simples a menudo requieren una motricidad precisa, algo que la mayorÃa de los robots aún no han logrado. No obstante, Gemini Robotics puede ejecutar complejas tareas de varios pasos, requiriendo manipulación precisa, como plegar origami o empacar un bocadillo, demostrando un nivel de destreza antes inalcanzado.
Gemini Robotics no solo sobresale en resolver tareas inesperadas, sino que su capacidad de generalización supera significativamente a otros modelos similares. El informe técnico de Google resalta su habilidad para adaptarse a nuevas situaciones y tomar decisiones sin entrenamiento previo, acercando a los robots a una verdadera autonomÃa.
Además, ha sido diseñado para ser compatible con diferentes tipos de robots. Aunque su entrenamiento se centró principalmente en ALOHA 2, una plataforma con dos brazos, Gemini Robotics ha demostrado también controlar sistemas como los brazos Franka usados en laboratorios y humanoides más avanzados como Apolo de Apptronik. Esta flexibilidad lo convierte en una solución versátil para diversas aplicaciones, desde la industria hasta la asistencia.
Por el momento, no hay una fecha especÃfica para el despliegue general de Gemini Robotics o Gemini Robotics-ER, ya que la tecnologÃa está en desarrollo y solo unas pocas empresas tienen acceso a estas innovaciones actualmente.
Google DeepMind colabora con Apptronik para desarrollar la próxima generación de robots humanoides, explorando la integración de modelos de IA en sistemas más sofisticados. Asimismo, testers confiables como Agile Robots, Agility Robotics, Boston Dynamics y Enchanted Tools están ya experimentando con Gemini Robotics-ER, sin que aún se tenga claro si este acceso se ampliará más adelante.
Mientras tanto, Google DeepMind se dedica a desarrollar nuevos marcos de referencia y estándares de seguridad para evaluar los posibles riesgos de la IA en entorno fÃsicos. Esto indica que, aunque el proyecto avanza, todavÃa queda mucho por hacer antes de que esta tecnologÃa esté ampliamente disponible para el público en general.
Imágenes | Google DeepMind
Deja una respuesta