¿Cómo se ponen a prueba los robots?
Los sistemas de análisis de las capacidades de los robots van a ser de gran utilidad cuando llegue el momento de tomar la decisión de qué robot comprar.
Una de las claves por las que los LLM está evolucionando tan rápido ha sido la gran competencia entre los laboratorios de IA por tener los mejores modelos, lo cual se veía materializado en su posición en los rankings de evaluación. Por ejemplo, se acaba de presentar un modelo desarrollado en Japón y llamado Fugu, que ha puesto en el mapa de la IA al laboratorio Sakana, que lo desarrolla, gracias a haberse posicionado muy bien en esos rankings de evaluación de los LLM. Algo similar lo hemos visto anteriormente con otros laboratorios que habitualmente no están entre los primeros, como ha sido el caso de Deepseek y xAI con Grok.
El caso es que una situación bastante similar podría producirse en el ámbito de la robótica, pero en este caso no se trata únicamente de evaluar las capacidades cognitivas de los modelos de IA Física sino también la destreza manual, la capacidad de movimiento y otras habilidades, lo cual hace de la evaluación de los robots un reto mucho mayor que la evaluación de los modelos de IA Generativa.
Que sepas, por ejemplo, que científicos muy afamados en el ámbito de la IA, como François Chollet, han dedicado una parte importante de sus esfuerzos a nivel de investigación a establecer esos criterios necesarios para determinar si la IA es realmente inteligente, a través de procesos de evaluación como es en su caso ARC Prize.
Así en en materia de robótica estamos en una situación similar a la que ocurría con los LLM hace 3 años, cuando Google, Anthropic y otros empezaron a sacar sus propios modelos y se inició la competencia para desbancar al pioneros de los chatbots de IA: ChatGPT.
Y en robótica ya hace tiempo que venimos viendo diferentes intentos por crear esos sistemas de evaluación del rendimiento de los robots, por ejemplo algunas de las iniciativas más populares hasta el momento han sido:
RoboLab-120: consiste en una prueba de rendimiento basada en simulación con experimentos realizados por personal de NVIDIA.
RoboArena: clasificación de robótica distribuida y basada en simulación donde se realizan experimentos en la realidad.
MolmoSpaces: plataforma de código abierto para el desarrollo de robótica, compatible con múltiples simulaciones y métodos de entrenamiento que ofrece una una tabla de clasificación de robots móviles, con una variedad de tareas diferentes
Y ahora el NIST (Instituto Nacional de Estándares y Tecnología de Estados Unidos) ha presentado un método integral para evaluar las capacidades físicas mínimas esperadas para los robots humanoides que pretende ser el primer estándar de rendimiento para robots humanoides desde que se realizó el desafío de Robótica DARPA de 2015
“En una década en la que Optimus, Figure , Agility , Apptronik , Unitree y una docena de otras plataformas humanoides han atraído miles de millones en inversión, todavía no existe una forma consensuada de medir lo que cualquiera de ellas puede hacer realmente. Los vídeos de marketing han suplido esta carencia”. Aaron Prather, director del Programa de Robótica y Sistemas Autónomos de ASTM International.
La división de sistemas inteligentes del NIST ha realizado esta propuesta a partir de su colaboración previa con la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) para evaluar las capacidades de los humanoides en la industria y el ámbito académico, y para orientar su desarrollo futuro.
El NIST propone este modelo de referencia de rendimiento como un conjunto de tareas de locomoción y manipulación de bajo impacto. Para ello, utilizan métodos de prueba y métricas de rendimiento previamente definidos y estandarizados. Estas tareas pretenden representar las capacidades mínimas de los robots humanoides disponibles comercialmente para aplicaciones industriales, domésticas , sanitarias y otras.
El objetivo es que los resultados de estas pruebas puedan establecer parámetros de medición para los robots líderes del sector, así como un conjunto común de tareas para investigadores y fabricantes, proporcionando una base de referencia para el rendimiento al tiempo que se realizan las siguientes pruebas:
Capacidades básicas de movilidad y manipulación/destreza de robots humanoides, independientes del dominio.
Capacidades coordinadas que combinan tareas de locomoción y manipulación.
Conciencia y control de todo el cuerpo a través de tareas de manipulación en espacios confinados.
Razonamiento mínimo, comprensión de tareas y escenas, y toma de decisiones.
Otra iniciativa que va en esta misma línea a la hora de intentar evaluar la destreza de los robots es el ecosistema COMPARE, que se conforma como una comunidad respaldada por la Fundación Nacional de Ciencias y que está enfocada en la manipulación robótica. Este ecosistema ofrece un caso de estudio para el desarrollo de pruebas de robots en el que ya participan colaboradores de la industria, la academia, el gobierno y las organizaciones de normalización.
Los simuladores, como Cosmos de NVIDIA son otra herramienta de utilidad en este reto de la evaluación de robots, en este caso cuenta cinco conjuntos de datos sintéticos que abarcan robótica, conducción autónoma, interacciones físicas, humanos digitales y operaciones de almacén y los investigadores pueden usarlos la simulación generando ejemplos que son escasos, peligrosos o difíciles de comprobar en el mundo físico.
¿Por qué es esto importante para nosotros?
Pronto llegará un momento en el que tendremos que tomar decisiones importantes en el ámbito de la robótica, porque ahora el abanico de posibilidades es bastante limitado. Si te atreves con un humanoide apenas está la opción de Unitree, y si no llegar a eso podrás quedarte en un cobot, un cuadrúpedo o cualquier otro formato de robot enfocado en el ámbito educativo. Pero pronto los principales fabricantes de robots comenzarán a ponerlos a la venta y entonces habrá mucha gente que tendrá que tomar decisiones de gran trascendencia. Por ejemplo:
La empresa que no va a tener suficiente con comprar un sólo robot, porque realmente lo que necesita es toda una flota para afrontar sus necesidades de mano de obra. No es lo mismo decidir invertir 50.000 euros en un robot que multiplicar eso por 10, 100 o incluso 1000.
Aquellos que no compren un robot para usarlo para sí mismos sino para ofrecerlo a otros, ya sea vendiéndolos, alquilándolos o en cualquier otro tipo de modelo de negocio, donde la inversión inicial puede ser importante y tomar una buena decisión puede ser crítica para el futuro del negocio.
Los que decidan especializarse en ofrecer servicios relacionados con los robots, ya sea software, mantenimiento, implantación, personalización, … también tendrán que decidir con qué empresa se casan inicialmente y hasta qué punto aprenden sobre el tema para convertirse en especialistas reales en esos robots.
Como ves, el tema de las pruebas para robots no se queda en algo de científicos sino que va a tener unas connotaciones enormes a nivel de negocio, por eso es importante que estemos atentos a la evolución de este tipo de sistemas de pruebas y que cuando llegue el momento de tomar la decisión de la compra de robots podamos tener en cuenta los criterios que se deriven de estos sistemas de evaluación.
Más noticias sobre robótica e IA Física
🦺 NVIDIA no para de darnos buenas noticias sobre su apuesta por la robótica y acaba de lanzar Halos for Robotics, un sistema de seguridad para IA física que lleva su enfoque de seguridad funcional desde el coche autónomo al robot industrial. Incluye computo seguro con IGX Thor, software específico, blueprint de seguridad externa y un laboratorio acreditado para preparar certificaciones. Esto nos indica que la robótica empieza a necesitar una capa estándar de seguridad para escalar de verdad junto a humanos.
🏭 Sanctuary AI cambia de estrategia. En vez de esperar al humanoide perfecto, despliega su IA física sobre robots industriales ya existentes. La compañía afirma haber logrado un 99,5% de éxito en una tarea compleja de conexión de cables a 2,54 segundos por ciclo en un proveedor global de automoción. Lo importante de esto es ver que la IA física empieza a funcionar en brazos robóticos industriales antes de la llegada de los humanoides.
💰 Odyssey anuncia una Serie B de 310 millones de dólares a una valoración de 1.450 millones para acelerar sus world models y su apuesta por la simulación física general. La ronda, liderada por Natural Capital y con Amazon, GV, AMD Ventures, EQT e IQT entre los participantes, refuerza la idea de que los modelos del mundo están dejando de ser un experimento académico para convertirse en infraestructura estratégica.
🤖 Qwen presenta RobotSuite, un paquete con tres modelos base para navegación, manipulación y world modeling en agentes físicos. Qwen-RobotNav unifica cinco tareas de navegación, Qwen-RobotManip intenta alinear datos heterogéneos entre robots, y Qwen-RobotWorld propone un modelo del mundo compartido para más de 20 tipos de robots.
✋ Robotiq publica el digital twin de su sensor táctil TSF-85 sobre NVIDIA Isaac Sim para entrenar políticas de manipulación con contacto en simulación. El punto fuerte no es solo el gemelo digital, sino que exporta mapas táctiles sintéticos y ataca el problema real de la simulación de materiales deformables y el contacto con los objetos
📦 Cobot presenta Proxie Gen 2 con autotasking y manipulación móvil bimanual, buscando moverse de tareas dirigidas a identificar por sí mismo qué material hay que mover y adónde. La empresa lo posiciona para hospitales, almacenes, laboratorios y fábricas, y lo ofrece desde 5.000 dólares al mes según la cobertura asociada al lanzamiento.
🩺 Channel Robotics capta 4,6 millones de dólares para desarrollar una plataforma de endoscopia manual asistida por IA y avanzar hacia la aprobación de la FDA en 2027. Su objetivo es aportar destreza robótica dentro de flujos médicos ya existentes y hacerlo más accesible a más centros de salud.
🛠️ XDOF se dedica a construir la capa menos vistosa y más necesaria de la IA física: capturar, organizar y preparar datos para entrenar robots. Su propuesta combina teleoperación, redes de recogida de datos y trabajo de anotación para que laboratorios y empresas no tengan que montar por sí mismos toda esa infraestructura.
🧬 Midjourney presenta una nueva nueva línea de negocio en el ámbito de la salud donde quiere convertir el escaneo corporal recurrente en una nueva infraestructura de captura de datos biomédicos. Su hoja de ruta combina hardware propio, ensayos de investigación, iteración algorítmica diaria y un primer “research spa” pensado para generar mapas corporales a gran escala antes de abrir al público en 2027.
🚗 Boston Dynamics pasa a estar controlada al 100% por Hyundai tras la compra de la participación que todavía mantenía SoftBank. La operación deja a Boston Dynamics completamente integrada en la estrategia industrial del grupo coreano, justo cuando Atlas se orienta a fabricación.


