NVIDIA hará de pegamento entre la Inteligencia Artificial y la Robótica Humanoide
Tras esta presentación de NVIDIA en el CES mi opinión de la empresa ha mejorado significativamente. Sigue leyendo para saber por qué.
Como hemos comentado anteriormente, el desarrollo de la robótica humanoide ha sufrido un punto de inflexión desde el momento en el que ha empezado a integrarse con la Inteligencia Artificial Generativa, específicamente con los modelos fundacionales, modelos de lenguaje LLM y modelos de imagen o de difusión.
En la presentación de NVIDIA en el CES 2025, cuando llega el momento de hablar de Physical AI (que es el concepto que usa la empresa para referirse a cómo la Inteligencia Artificial se va a integrar en dispositivos que no son simplemente ordenadores, como pueden ser los coches y los robots) lo primero que hace Jensen Huang es explicar el papel de el prompt, el contexto y los tokens, en el marco del modelo fundacional. Estos conceptos se refieren a la manera en la que interactuamos con la IA. Nuestros mensajes son prompts que se transforman en tokens, que son procesados por el modelo fundacional y convertidos en nuevos tokens que devuelven instrucciones que en este caso el robot tendrá que ejecutar.
💡¿Por qué es esto importante?
Quiero hacer aquí una mención especial a la importancia del contexto, los PDFs que menciona Huang, como comprobamos cuando usamos NotebookML de Google, son los documentos que queremos que la IA tenga en consideración de manera prioritaria cuando vaya a proporcionarnos las respuestas que le solicitamos. En el caso de los robots, podríamos dotarlos de una biblioteca de documentos, como pueden ser los manuales de instrucciones de otras máquinas con las que debe interactuar, por lo que dispondrán de una especie de entrenamiento simplemente con darles esos documentos como contexto.
🌍 Un modelo fundacional del mundo
El otro tema importante para dotar a los robots de inteligencia, es que entiendan el mundo que les rodea, para lo cual no es suficiente con disponer de cámaras y sensores, sino que el modelo funcional que hace de cerebro, debe de estar preparado para procesar no solo texto, imágenes y audio, sino también otros aspectos físicos y dinámicos como pueden ser la gravedad, la fricción, la inercia, la geometría, …
📎 Nota: hago un paréntesis para hablar del problema de Moravec, un concepto, planteado por el científico Hans Moravec en la década de 1980, que plantea que las habilidades cognitivas complejas, como jugar al ajedrez o resolver problemas matemáticos, son relativamente fáciles de enseñar a las máquinas, mientras que las habilidades sensorimotoras y perceptivas simples, que los humanos (y especialmente los niños pequeños) hacen de manera natural, son extremadamente difíciles de replicar en robots.
🌌 La presentación de Cosmos
Igual que tenemos modelos fundacionales para la generación de textos, los LLM, como ChatGPT de OpenAI y Gemini de Google, o los modelos de difusión para la generación de imagen Dall·E, Midjourney, Stable Diffusion, … Ahora Nvidia ha presentado un modelo fundacional del mundo, que está diseñado para entender el mundo físico. Se trata de Cosmos y nace con un reto muy importante: el éxito de los modelos fundacionales actuales no solo se debe a haber sido creados usando el algoritmo de red neuronal Transformer, sino al hecho de haber sido entrenado con cantidades ingentes de texto, imágen, audio y vídeo, de los cuales teníamos muchos publicados en Internet. Pero esto no lo tenemos de manera tan abundante del mundo real, ya que muy pocas empresas se han dedicado en los últimos años a tomar imágenes y sonidos del mundo real, con excepciones como Tesla y Google con sus coches autónomos, lo cual les va a reportar una ventaja competitiva importante en los próximos años.
📎 Nota: Cosmos ha sido publicado de manera abierta y su código está disponible en Github
🔮 Prediciendo el futuro
Por lo que sabemos de neurociencia hasta ahora parece haber bastante consenso en que nuestro cerebro especula constantemente sobre lo que va a suceder en el futuro, o dicho de otra manera, está generando diferentes escenarios de lo que viene a continuación y actúa en consecuencia. El modelo fundacional Cosmos también ha sido diseñado de esta forma, lo cual me parece un gran acierto, ya que aplicando el razonamiento paso a paso, que tan popular se ha hecho en el ámbito de los LLM, el robot será capaz de imaginar diferentes situaciones y elegir la que mejor se adapte a la tarea que se le ha encomendado, o a tener éxito con la misión que tenga que llevar a cabo.
🦾 Thor, la computadora robótica universal
La computadora para vehículos autónomos Thor de NVIDIA es una buena aproximación a cómo pueden ser los cerebros de los robots humanoides en el futuro, sobre todo si vemos los coches como un robot con ruedas y a partir de ahí los extrapolamos a todo tipo de funciones que pueda llegar a hacer un robot, una vez que haya sido alimentado por las imágenes que toman los vehículos cuando circulan por carreteras, almacenes, …
No sería extraño que acabemos viendo que Thor, junto con Cosmos, es adoptado por la mayoría de fabricantes de robots humanoides, del mismo modo que en su momento hicieron los fabricantes de smartphones con Android.
🥉 Los tres tipos de robots de Nvidia
Los agentes inteligentes para los trabajadores del conocimiento, la conducción autónoma para los vehículos y los robots humanoides. En estas tres categorías se enmarca el desarrollo de la robótica en el futuro para NVIDIA. No quiere decir que otras formas de robots no vayan a existir, pero seguramente serán muy minoritarias, como es el caso de Sparkles, el perro robot de Boston Dynamics.
“El momento ChatGPT de la robótica general está a la vuelta de la esquina”
Jensen Huan
Pero la situación crítica en estos momentos es cómo entrenar a estos robots, ya que necesitamos información (datos) que los robots puedan imitar, pero eso no es tan fácil de conseguir como está sucediendo con los vehículos autónomos que están circulando todo el rato por las carreteras. Viendo la presentación de Nvidia se intuye que al igual que hubo que involucrar a mucha gente para realizar el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) de los LLM, en este caso será necesario que muchas personas hagan el trabajo de aportar datos de movimiento usando tecnologías de realidad aumentada como las Apple Vision Pro. Isaac GR00T es la iniciativa de la empresa para hacer que suceda la predicción “la era de la robótica general está llegando”.
🤑 Y ahora mi opinión
Hasta aquí el relato sobre la presentación sobre robótica de NVIDIA en el CES. Te seré sincero, mi visión de la empresa ha mejorado considerablemente desde este evento, hasta entonces me parecía increíble lo bien que habían aprovechado la oportunidad de que sus GPU encajasen de maravilla con lo que era necesario para desarrollar la Inteligencia Artificial, pero ahora veo que no ha sido una casualidad. La empresa no solo tiene capacidad de aprovechar las oportunidades, sino que es capaz de construir sobre ello y todo apunta que es lo que va a hacer con los robots.
🎁 Y ahora un pequeño regalo para los primeros suscriptores de la newsletter, nuestra base de datos de empresas dedicadas a la robótica humanoide. Empezamos con 40 y le iremos añadiendo más información de utilidad tanto de las empresas como de sus robots.
Más noticias destacadas sobre robótica e Inteligencia Artificial
A continuación compartimos las noticias destacadas del sector que se han producido en la última semana.
📱Samsung Electronics será el mayor accionista de Rainbow Robotics con el objetivo de acelerar el desarrollo de los robots del futuro. Ahora que Apple ha tirado la toalla con el coche autónomo, ¿veremos pronto noticias de su interés por la robótica?
🤖 OpenAI está muy tentado por la robótica humanoide. Además de invertir en las startups de robótica X1 y Figure hay indicios de que podría estar trabajando en su propio robot humanoide, lo cual sería como si ChatPGT se encarnara.
🈵 Fourier, la startup china de fabricación de robots humanoides ha recaudado más de 100 millones de dólares en una ronda de financiación liderada por el fondo Prosperity7. Pronto hablaremos de la gran apuesta del país asiático por la robótica.
🗺️ Google está formando su propio para la creación de modelos fundacionales del mundo que será para el diseño juegos y entrenamiento de robots. Este equipo estará dirigido por Tim Brooks, que trabajó el proyecto Sora de OpenAI.
Para estar al día de todo lo que se cuece en el desarrollo de los robots humanoides también puedes seguir a @integrarobot en X