Las capacidades de los robots humanoides
¿Qué pasa con la voz? ¿Por qué los robots humanoides no hablan? lo vamos a analizar en este artículo.
La semana pasada se produjeron importantes novedades en el ámbito de la robótica impulsada por Inteligencia Artificial, especialmente en lo relativo a robots humanoides hay que destacar la presentación del software Helix de Figure y el nuevo vídeo de demostración de las habilidades como mayordomo en el hogar del robot Neo de 1X.
En ambos casos tenemos una tónica dominante, la demostración de capacidades se centra mucho en la habilidad manual, por encima de la cognitiva, de hecho, ninguno de estos robots habla, aunque sí que reciben instrucciones por voz.
Empecemos por Helix, el software de Inteligencia Artificial desarrollado por Figure, después de que anunciara que dejaba de trabajar con OpenAI (accionistas de la compañía), para desarrollar su propio software internamente y contar esa autonomía tan necesaria cuando quieres tener todo bajo control sin dependender de terceros.
Helix es un modelo fundacional de imagen, lenguaje y acción (VLA) para el control de robots humanoides de propósito general. Es decir, a los modelos de Inteligencia Artificial multimodales, que estamos acostumbrados, por ejemplo cuando le subimos una imagen a ChatGPT para que la analice o proyectamos a través de la cámara con Gemini para que interprete lo que estamos viendo, en este caso añadimos la capacidad de tomar acción, pero no generando un contenido sino movimiento.
La base sobre la que ha sido desarrollado Helix se encuentra en replicar el funcionamiento de los modelos de lenguaje e imagen, que usamos para la generación de contenido, que no necesitan haber sido entrenados específicamente para una taream sino que son capacidades de generalizar o deducir lo que deben hacer a partir de una experiencia previa en otro ámbito.
Por lo tanto gracias a Helix no es necesario programar cada una de las acciones que un robot debe hacer en el hogar o entrenarlo específicamente para ello con imágenes de esa actividad, sino que en base a un entrenamiento genérico el robot puede extrapolar determinadas acciones a otras que nunca antes había visto. Lo cual resulta muy importante específicamente para el trabajo en el hogar, donde a diferencia de la industria, no suele haber estándares ni procesos optimizados, cada casa es un mundo y se organiza de manera muy diferente a otra.
Pensar rápido, pensar despacio
¿Has oído hablar del Sistema 1 y Sistema 2 propuesto como teoría del pensamiento humano por parte de Daniel Kahneman y Amos Tversky? Seguro que la gente de Figure que ha creado Helix sí que lo conocen y se han debido inspirar en ello para diseñar el control del cuerpo superior del robot.
Pero esto no es nuevo, los modelos razonadores que se usan en Inteligencia Artificial Generativa, como el o1 de ChatGPT también se basan en esta idea al hacer a la máquina pensar paso a paso o crear una cadena de pensamiento a partir de la cual articular el razonamiento. Es el “vísteme despacio que llevo prisa” de la sabiduría popular reinterpretado por la alta ingeniería.
De esta forma, el modelo Helix introduce un enfoque innovador en la robótica humanoide al dividir su proceso de toma de decisiones en dos sistemas complementarios: Sistema 1 y Sistema 2 . Al inspirarse en la teoría sobre cómo los humanos procesamos la información, se propone un conjunto formado por un sistema rápido e intuitivo y otro sistema lento y analítico. En el caso de Helix, esta división permite que los robots combinen precisión y velocidad con razonamiento y adaptabilidad.
💪 S1: Control reactivo y rápido
El Sistema 1 de Helix es el encargado de ejecutar los movimientos físicos del robot con rapidez y precisión. Funciona a 200 Hz, lo que significa que toma decisiones cada 5 milisegundos. Su tarea principal es la ejecución de acciones motoras en tiempo real, ajustando continuamente la posición de los dedos, la muñeca y el torso para realizar movimientos suaves y coordinados.
Utiliza una red neuronal de 80 millones de parámetros basada en transformers que le permite generar los movimientos en tiempo real.
Opera en una GPU independiente, optimizada para realizar cálculos de control de movimiento de forma eficiente.
Se encarga de traducir las instrucciones de alto nivel en acciones físicas precisas, como agarrar un objeto con la fuerza adecuada o ajustar la postura del robot en función del entorno.
El S1 no toma decisiones complejas ni interpreta el contexto general, sino que responde rápidamente a la información que recibe del S2.
🧠 S2: Razonamiento semántico y planificación
El Sistema 2 de Helix es el responsable de la interpretación del entorno, el lenguaje y la planificación de las acciones. Opera a una frecuencia más baja de 7-9 Hz, ya que su tarea no es la ejecución inmediata, sino la comprensión y toma de decisiones estratégicas.
Utiliza un modelo de visión-lenguaje (VLM) preentrenado con 7 Billones de parámetros, que le permite interpretar imágenes, entender comandos en lenguaje natural y planificar acciones.
Recibe información visual de las cámaras del robot y del estado de sus articulaciones.
Traduce las órdenes en texto y la percepción del entorno en un vector latente que sintetiza la intención de la acción.
Por ejemplo, si el robot recibe la orden “recoge la mantequilla y dásela al robot de la izquierda”, S2 analiza el significado de la frase, identifica la mantequilla en la imagen y decide qué secuencia de movimientos es necesaria para completar la tarea.
Este diseño desacoplado de Helix permite que ambos sistemas operen en paralelo, cada uno en su propio marco de tiempo óptimo:
S2 recibe la orden en lenguaje natural, analiza la escena y genera un plan de acción.
S1 recibe el vector latente de S2 y traduce esa información en movimientos continuos y ajustados en tiempo real.
S2 sigue supervisando la escena, ajustando el plan si las condiciones cambian (por ejemplo, si el objeto se mueve o si el otro robot modifica su posición).
Gracias a esto los robots sean rápidos y precisos en la ejecución, pero también adaptativos e inteligentes en la toma de decisiones, resolviendo uno de los problemas actuales de la robótica: la necesidad de combinar control motor reactivo con razonamiento generalista.
Hasta ahora sabíamos muy poco de cómo iba a funcionar el cerebro de los robots, especialmente a lo que la parte de acción se refiere, y ahora gracias a la presentación de Helix tenemos mucha más información al respecto. Estoy seguro de que esto marcará tendencia para muchas otras empresas que diseñan y fabrican robots humanoides.
🖇️ De los LLM a los VLA
Tras la invención del aprendizaje por refuerzo y de los Transformers, como tipo de red neuronal que ha dado lugar a todo el desarrollo de la Inteligencia Artificial generativa, específicamente a través de los Grandes Modelos de Lenguaje (LLM) que es el motor de los asistentes inteligentes o chatbots como ChatGPT, nos adentramos ahora en una nueva etapa de desarrollo con la aparición de los VLA, estos nuevos modelos que combinan la visión, el lenguaje y la acción.
La visión es necesaria para reconocer el entorno, el lenguaje para entender las instrucciones que recibe a través de la voz de las personas y la acción para actuar en consecuencia en función de las instrucciones que recibe.
Esta combinación de elementos es la clave para que el robot sea completamente funcional, pero tiene un punto débil, la parte de acción es de la que menos datos se dispone y es en uno de los temas en los que más se está trabajando para eliminar este cuello de botella, por ejemplo como vimos en semanas anteriores con las iniciativas PARTNR de Meta y ARMADA de Apple, al que hay que añadir ahora MAGMA de Microsoft.
Como puedes imaginar, cuando toda una industria se coordina para afrontar un reto común, como ha ocurrido antes con la informática, internet y la Inteligencia Artificial, lo normal es que los pronósticos al respecto de la utilidad e impacto que tenga la robótica humanoide se acaben cumpliendo.
Ejemplo de esto es la presentación del nuevo robot de la empresa 1X, sí la otra startup que cuenta con el apoyo de OpenAI tanto a nivel financiero como tecnológico.
Neo Gamma es un robot diseñado específicamente para ofrecer servicios en el hogar y hacerlo de una forma que resulte muy amigable para el ser humano, hasta el punto que su estética parece haber sido creada por los diseñadores de IKEA. Pero como puedes ver en el vídeo de presentación, todo el despliegue de capacidades se basa en el trabajo manual, el robot apenas tiene interacción social, más allá del movimiento de cabeza y manos.
👄 ¿Qué pasa con la voz? ¿Por qué los robots humanoides no hablan?
Cuando profundizas en la estrategia de los diferentes fabricantes de robots humanoides una de las cosas que más llama la atención es que la gran mayoría de estos robots no hablan y tras darle una pensada, pensé en preguntarle a la Inteligencia Artificial las razones que podrían estar detrás de esta situación.
Si te fijas en los vídeos de demostración de los robots cada uno de ellos incide en destacar algunas capacidades, los hay que hacen piruetas, como Atlas de Boston Dynamics, los que son capaces de desplegar una gran habilidad manual, como Optimus de Tesla, los que son capaces de acarrear objetos como Apollo de Apptronik y Digit de Agility, y los que son capaces de colaborar con otros robots como 02 de Figure, pero casi no encontramos ejemplos de robots que interactúan a través de la voz.
Bueno sí, te miento, porque algunos robots sí que hablan y de hecho es de estos robots de los que vamos a hablar para terminar con este artículo, ya que la mayoría de capacidades de las que hemos estado hablando hasta ahora podríamos clasificarlas como físicas, pero hay otras capacidades que son las sociales, en las que habrá que fijarse más adelante.
Porque la robótica social es un mundo dentro de otro más amplio que es la robótica impulsada por Inteligencia Artificial, en este caso hablamos de robots capaces de expresarse a través de la voz y comunicación no verbal. Y aquí encontramos propuestas como Ameca de Engineered Arts y Aria de Realbotix.
¿Qué ocurre con estos robots? En primer lugar tenemos que mencionar el trade-off que supone enfocarse en la parte de interacción social, lo que hace que estas empresas tengan mucho menos desarrolladas las capacidades físicas de sus robots. Pero también vale la pena reflexionar sobre la sensación que sentimos cuando vemos esas máquinas en las que se ha intentado replicar el aspecto de las personas, pero donde el resultado aún es muy mejorable. Y lo mismo ocurre con la voz.
Aquí es donde tenemos que volver a rescatar el concepto de valle inquietante, es decir, las empresas que fabrican robots humanoides, concretamente las que no se dedican específicamente a la robótica social, deben ser muy cuidadosas para no generar unas expectativas irreales al respecto de las capacidades de sus robots. En estos momentos especialmente si se centran en las capacidades físicas, manuales e intelectuales, hacer que los robots hablen o tengan un aspecto más humano, puede generar decepción o incluso miedo en los humanos, lo cual puede repercutir en la percepción del mercado y el apoyo al desarrollo de esta tecnología.
Por lo demás, tendríamos que pensar en que debido a las limitaciones a nivel de batería, tampoco estos robots van a poder por ahora desplazarse a grandes velocidades ni levantar objetos demasiado pesados, además de que tampoco van a poder desplegar grandes capacidades a nivel intelectual, porque todo ello consume energía y limita mucho su rango operativo.
Más noticias destacadas del sector de la robótica y la Inteligencia Artificial
🕶️ EgoMimic es una iniciativa de Simar Kareer, un estudiante de doctorado de Georgia Tech que ha usado las gafas de investigación de realidad aumentada del proyecto Aria de META para entrenar robots humanoides.
⚛️ Majorana es la investigación de computación cuántica de Microsoft para desarrollar un qubit topológico basado en fermiones de Majorana, unas partículas cuánticas teóricas que podrían hacer los qubits más estables y resistentes a la decoherencia.
🧪 AI co-scientist es un sistema de IA multiagente de Google que permite usar Geminin como colaborador científico virtual para ayudar a los científicos a generar nuevas hipótesis y propuestas de investigación, y para acelerar los descubrimientos científicos y biomédicos.
🦾 MagicHand S01 es la mano robótica de alta precisión desarrollada por Magiclab, equipada con 11 grados de libertad, lo que le permite realizar movimientos complejos y precisos, gracias a su tecnología de retroalimentación táctil y a sus actuadores eléctricos.
🧑💻Claude 3.7 Sonnet es el nuevo LLM con el que Anthropic está partiendo la pana, especialmente en lo relativo a asistencia en el desarrollo de software donde se ha posicionado como el más capaz de los rankings.
📷 Seemour es el software de Inteligencia Artificial desarrollado por la empresa Prompt AI para dotar de inteligencia a las cámaras de vigilancia de los hogares convirtiéndolas asistentes proactivos e inteligentes que lo mantienen informado y conectado con el entorno.