Primero aprender y luego trabajar
Se debate mucho sobre el estado del arte de la robótica, pero una cosa está clara, cada día que pasa hay mejoras importantes.
Hace tan solo una semana que desde Hugging Face pusieron a la venta el mini robot Reachy, fruto de la reciente adquisición de la empresa Pollen Robotics, y ya han vendido unidades por valor de 1 millón de dólares. El precio del robot es de 299 dólares en la versión básica y de 449 en la versión inalámbrica, lo cual implica que deben llevar vendidas unas 3.000 unidades.
Reachy Mini se anuncia como el robot de código abierto para los desarrolladores de IA de hoy y del futuro, lo cual está poniendo de manifiesto que lo que buscan es que su uso sea principalmente educativo, con el objetivo de que las personas que lo adquieran contribuyan a impulsar el desarrollo de la robótica.
Sin duda Reachy no es el primer robot educativo que nace con este propósito, a lo largo de los últimos años hemos visto aparecer muchas iniciativas similares, pero seguramente ninguna contaba con unas bases tan sólidas como las que suponen tener todo el apoyo de Hugging Face. Es difícil decir cuánta parte del éxito de la IA generativa actual se debe a esta comunidad de código abierto, pero sin duda su aportación está siendo tremendamente relevante.
¿Por qué es importante esto?
Contar con miles de nuevos desarrolladores experimentando en el ámbito de la robótica supondrá un nuevo impulso a este sector, como ya ha sucedido anteriormente con otras iniciativas, pero en este caso es posible que se haga aún más popular y atraiga a mucha más gente que quiera sumarse a esta nueva fiebre del oro que va estar representada por los Robots Humanoides.
Perdonad por la terminología de fiebre del oro, pero me viene bien para hacer referencia a lo que ha contado recientemente Jim Fan, el director de robótica de NVIDIA, refiriéndose a este sector como el maravilloso lejano oeste. Lo cual hace pensar que si los inicios de los Estados Unidos tuvieron esa etapa tumultuosa para llegar a la fase de prosperidad posterior, con los robots puede estar ocurriendo algo parecido.
De hecho Jim hace referencia a GPT1 y Bert para situar al estado actual de la robótica. Si fuiste de los que probaste esas herramientas de IA Generativa allá por 2018 podrás decirnos si se parecían en algo a lo que 4 años más tarde supuso la presentación de ChatGPT. Por lo tanto lo que nos está queriendo poner de manifiesto este fenómeno de tecnología es que a los Robots Humanoides aún le quedan unos años de paso por el desierto.
Creo que el GPT-1 de la robótica ya está en Arxiv, pero no sabemos exactamente cuál. Podrían ser modelos del mundo, aprendizaje automático, aprendizaje a partir de video humano, sim2real, real2sim, etc., o cualquier combinación de ellos. Los debates son intensos. La entropía está por las nubes. La naturaleza de la robótica también complica enormemente el espacio de diseño. A diferencia del mundo limpio de bits para las cadenas de texto (LLM), los expertos en robótica tenemos que lidiar con el desordenado mundo de los átomos. Después de todo, hay un trozo de metal definido por software en el bucle. A los expertos en LLM les puede resultar difícil de creer, pero hasta ahora los expertos en robótica aún no se han puesto de acuerdo sobre un punto de referencia. Los robots tienen diferentes capacidades: algunos son mejores en acrobacias, mientras que otros en manipulación de objetos. Algunos están diseñados para uso industrial, mientras que otros se dedican a tareas domésticas. La integración cuerpo mente no es solo una novedad en la investigación, sino una característica esencial para un cerebro robótico universal. El mejor momento para entrar es cuando el consenso alcanza su punto máximo. Aún estamos al comienzo de una curva de pérdidas: hay fuertes señales de vida, pero estamos muy lejos de la convergencia. Cada paso nos lleva a lo desconocido. Pero de algo estoy seguro: no hay IAG sin tocar, sentir y estar integrada en este mundo caótico.
Reveladoras palabras que me llevan a pensar en la importancia del aprendizaje, básicamente aún no sabemos cuál es la mejor forma de entrenar a los robots para que aprendan a desenvolverse en el mundo real y por eso no hay semana que no tengamos noticias de la aparición de un nuevo modelo de Inteligencia Artificial que pretende resolver este problema.
Por ejemplo, os dejo por aquí algunas noticias y artículos que tenía recopilados para esta semana que nos hablan del estado del arte del desarrollo de la tecnología para el entrenamiento de robots:
1️⃣ El Instituto de Investigación Toyota publicó esta semana los resultados de su estudio sobre Modelos de Comportamiento de Gran Tamaño (LBM) que pueden utilizarse para entrenar robots de propósito general. El estudio demostró que un solo LBM puede aprender cientos de tareas y utilizar conocimientos previos para adquirir nuevas habilidades con un 80% menos de datos de entrenamiento.
2️⃣ Robobrain es un modelo de cerebro corporizado de código abierto diseñado para unificar la percepción, el razonamiento y la planificación para tareas complejas de robots en entornos físicos. Presenta una arquitectura heterogénea con un codificador de visión y un modelo de lenguaje, lo cual le permite obtener un rendimiento sólido en un amplio espectro de tareas de razonamiento corporizado
3️⃣ Generative Value Learning (GVL) es una nueva técnica de entrenamiento de robots que permite resolver el problema de saber si el robot va por buen camino para completar una tarea. Lo cual han conseguido únicamente mostrando al robot una serie de imágenes y vídeos de humanos, sin necesidad de entrenar el sistema para cada tarea.
4️⃣ ¿Qué son los modelos del mundo? este interesante artículo de Chris Paxton, que trabaja en Agility Robotics, nos muestra los retos actuales a los que se enfrentan los desarrolladores de sistemas de inteligencia artificial que permiten a los robots imaginar o predecir futuros posibles a partir de su estado actual y las acciones que pueden tomar a continuación.
Termino este artículo volviendo a sacar el tema del momento ChatGPT de la robótica, porque a través de un artículo de Paritosh Mohan podemos entender mejor en qué estado del desarrollo de la robótica nos encontramos y cuáles son los retos que aún quedan por resolver.
¿Dónde estamos?
👣 Autonomía 1.0: robótica artesanal (antes de 2015): robots con reglas fijas y visión clásica. Nada de aprendizaje. Funcionaban sólo en entornos muy controlados. Ej: Roomba, Kiva, DARPA Challenge.
🤖 Autonomía 2.0: módulos con IA (2015–2022): se introduce el aprendizaje profundo en la visión, pero el resto del sistema (planificación, control…) sigue siendo manual. Ej: Tesla, Waymo, Spot.
🌐 Autonomía 3.0: modelos base (desde 2023): modelos tipo transformer que entienden vídeo, lenguaje y sensores. Pueden aprender tareas nuevas y explicarse. Ej: RT-2, GROOT, OpenVLA.
🤝 Autonomía 4.0: colaboración total (futuro): robots que cooperan entre sí y con humanos. Comparten información, se adaptan sobre la marcha y entienden nuestras intenciones. Ej: enjambres, robots asistenciales, logística en tiempo real.
¿Qué sigue?
Un robot realmente versátil, que sea capaz de pasar de un almacén a una cocina o a una obra sin tener que re-entrenarlo del todo, todavía está a unos 10 años de distancia. Para llegar a la Autonomía 3.0 real, hay que resolver varios retos clave en inteligencia, hardware, operaciones y seguridad.
🧠 Mejor memoria y razonamiento
Problema: Los modelos actuales se olvidan rápido y no razonan a largo plazo.
Meta: robots que mantengan objetivos y mapas del entorno en su memoria durante minutos y que recuerden lo que hay aunque esté fuera de su vista.
🔁 Aprender haciendo
Problema: les cuesta adaptarse al mundo real.
Meta: enseñar al robot por imitación + ensayo y error directamente en situaciones reales, sin depender tanto de simuladores.
⚡ Inferencia eficiente
Problema: no logran buen equilibrio entre velocidad, precisión y consumo de energía.
Meta: modelos ligeros que combinan vídeo, mundo y acción en un solo paso, optimizados para rapidez y eficiencia energética.
🎮 Recopilar datos a lo grande
Problema: obtener buenos datos de robots es caro y lento.
Meta: herramientas de teleoperación que recojan horas de datos útiles por turno, con variedad y realismo para escalar el aprendizaje.
🧪 Simulación ≠ Realidad
Problema: lo que aprenden en simulación falla al usarlo en el mundo real.
Meta: simuladores que modelen bien los contactos físicos y reduzcan la brecha entre lo virtual y lo real a menos del 10 % de error.
📱 Hardware más asequible
Problema: el hardware es lento de mejorar y demasiado caro.
Meta: actuadores baratos, baterías más duraderas y ciclos de mejora más rápidos, como los que vemos en smartphones.
✋ Manipulación precisa
Problema: malos en tareas delicadas.
Meta: control táctil preciso para que puedan hacer trabajos finos como enroscar tornillos o manejar objetos frágiles.
🚨 Seguridad activa y garantizada
Problema: no hay garantías reales de que los robots no hagan daño.
Meta: sistemas de seguridad que se mantengan activos en todo momento, con límites claros de velocidad, fuerza y espacio.
El camino está marcado, ahora solo tenemos que transitarlo.