Necesitamos Agentes Inteligentes para tener Robots Humanoides
En 2024 se habló tanto de agentes que ahora toca hacerlo realidad y no solo eso, también serán fundamentales para el desarrollo de la robótica.
Jensen Huang, explica en el CES 2025 cómo la IA física y los Agentes Inteligentes son impulsados por la computación de NVIDIA.
Del mismo modo que la aparición de los LLM ha disparado el desarrollo de los robots humanoides, al contar ahora con una inteligencia superior que les permite entender su entorno y las instrucciones que se les proporcionan en lenguaje natural, aún queda ir un paso más allá para que estas máquinas sean totalmente funcionales; y para ello necesitamos a los agentes inteligentes, que son la evolución de los asistentes inteligentes.
La palabra clave para pasar de los asistentes a los agentes es autonomía. Cuando le quitamos el “co”, al “copiloto” y dejamos solo al piloto al frente del vehículo. O dicho de otra forma, cuando lo ponemos en piloto automático.
Me gusta esta analogía del copiloto porque representa muy bien la situación actual, donde los asistentes inteligentes no toman el control del vehículo, sino que asisten al piloto para que realice la tarea correspondiente de manera más eficiente. Los asistentes inteligentes que ahora usamos a diario, como ChatGPT, Gemini, Claude, … poco a poco van a ir tomando iniciativa, por ejemplo cuando tienen la función de buscador, porque no solo responden a preguntas, o peticiones basadas en su conocimiento, sino que tienen que salir a buscarlo a Internet.
Pero esa fue una primera etapa y ahora estamos viviendo la segunda fase que se inició el año pasado con la presentación por parte de Anthropic del modelo Computer Use para Claude 3.5 Sonnet, que es es capaz de interactuar con herramientas y que puede manipular un entorno de escritorio de la computadora. Lo malo es que el resultado obtenido hasta el momento con esta función no ha sido demasiado bueno y parece que la empresa ha parado su implementación.
De otro lado nos encontramos con el modelo Operator de OpenAI, que sí parece haber dado mejores resultados al enfocarse en la interacción directamente en Internet, ya sea navegando e interactuando con diferentes páginas web, siempre con la supervisión del usuario, pero sin llegar a tomar el control del software que tenemos instalado en nuestro ordenador. La autonomía entonces es relativa, porque el usuario tiene que autorizar las acciones, pero parece claro que ese es el camino hacia disponer de agentes inteligentes autónomos que sean capaces de tomar decisiones y actuar en consecuencia.
Actuar es precisamente lo que esperamos de un Robot Humanoide, que no se limite a seguir las instrucciones que se le han proporcionado en su programación o entrenamiento, sino que tenga capacidad de tomar la iniciativa cuando sea necesario. Por ejemplo, si encuentra un objeto en su camino tendrá que decidir si lo aparta, lo esquiva o lo recoge. Ya sea en el hogar, en un comercio o en una fábrica, vamos a querer que actúe como un humano (no perezoso), de forma que si el objeto se ha caído, lo normal será recogerlo, no esquivarlo ni apartarlo.
Por eso podemos decir que el desarrollo de agentes inteligentes impulsará la robótica humanoide y que el cerebro del robot será un agente.
Para verlo con un ejemplo, ya que Operator de OpenAI solo está en la versión de pago más cara de ChatGPT, miremos lo que se puede hacer con el modo Deep Research de Perplexity, que se encuentra disponible en la versión gratuita de este asistente inteligente.
Si observas la imagen, lo que puedes comprobar es que el agente propone una serie de tareas, que posteriormente valida y finalmente genera un trabajo correspondiente para poder dar el resultado que le ha pedido el usuario.
Componentes que conforman un agente inteligente
Hemos visto que un agente inteligente es clave para que los robots humanoides sean verdaderamente autónomos, pero ¿qué es lo que lo hace posible? Para entenderlo, veamos cuáles son sus componentes fundamentales:
👁️ Percepción: es la capacidad del agente para recopilar información de su entorno a través de sensores o fuentes de datos externas. En un robot humanoide, esto puede incluir visión artificial, reconocimiento de voz, sensores de proximidad y detección de objetos. Sin percepción, el agente operaría a ciegas, sin saber lo que ocurre a su alrededor. En el caso de un agente inteligente que funciona en un ordenador o un móvil, lo que suele hacerse es observar la navegación que se hace a través de la web, el equivalente a hacer una captura de pantalla y pedirle que interprete qué es lo que se observa en ella.
🧠 Procesamiento: una vez que ha recopilado datos, el agente necesita analizarlos y darles sentido. Aquí es donde entran en juego modelos avanzados de deep learning que interpretan la información, identifican patrones y comprenden el contexto en el que se encuentra. Este procesamiento es lo que permite que el agente entienda el contexto relacionado con la acción que se le está solicitando y que en base a ello posteriormente pueda tomar una decisión acertada al respecto.
🔀 Toma de decisiones: no basta con comprender el entorno, también hay que actuar en consecuencia. Un agente inteligente elige la mejor acción según sus objetivos, sus limitaciones y lo que ha aprendido previamente. Aquí es donde la autonomía empieza a cobrar sentido: no se trata solo de ejecutar órdenes predefinidas, sino de evaluar cada situación y decidir el mejor curso de acción sin depender de la intervención humana en todo momento.
🦾 Actuación: finalmente, el agente traduce su decisión en una acción física o digital. En un robot humanoide, esto significa moverse, manipular objetos o comunicarse con otros sistemas. En un agente digital, puede significar interactuar con aplicaciones, realizar búsquedas o automatizar procesos. Sin la capacidad de actuar, el agente seguiría siendo solo un asistente pasivo, no un sistema verdaderamente autónomo.
Aunque estos cuatro elementos son esenciales, el verdadero salto evolutivo en los agentes inteligentes vendrá cuando puedan integrar aprendizaje continuo y memoria a largo plazo. Hoy en día, la mayoría de los asistentes y agentes solo recuerdan información dentro de una sesión de uso o en rangos muy limitados. Para que un robot humanoide pueda operar de forma completamente autónoma, necesitará desarrollar una memoria de experiencias y mejorar su toma de decisiones con el tiempo, igual que lo haría un humano que aprende de su día a día.
Por eso, los que desarrollan la inteligencia artificial están dando pasos en esa dirección, explorando la capacidad de los modelos para recordar, adaptarse y refinar su comportamiento en función de interacciones previas. Cuando esta tecnología madure, los robots humanoides dejarán de ser simples ejecutores de comandos para convertirse en máquinas inteligentes capaces de operar en el mundo real con verdadera autonomía.
🎼 La importancia de los orquestadores
Hasta ahora, hemos hablado de los agentes inteligentes por esta capacidad de tomar el control de una tarea para ejecutarla, pero lo habitual va a ser que múltiples agentes trabajen de manera coordinada para realizar una tarea más completa y aquí es donde entra en juego el concepto de orquestador. Su función principal es organizar el flujo de trabajo entre estos agentes, asegurando que cada uno desempeñe su rol dentro de un ecosistema de IA más amplio.
En el caso de la robótica hemos asemejado el agente al cerebro del robot humanoide, pero en escenarios más avanzados, donde múltiples robots o sistemas trabajan en conjunto, es donde entra en juego esta nueva pieza clave del orquestador.
El orquestador no es un simple gestor de tareas dentro de un agente, sino un coordinador de múltiples agentes inteligentes que trabajan de manera autónoma, asegurando que sus acciones se complementen y que las decisiones individuales contribuyan a un objetivo común.
Por ejemplo, en una fábrica con varios robots humanoides, cada uno equipado con su propio agente inteligente, el orquestador se encargaría de distribuir las tareas, evitar redundancias y garantizar que los robots colaboren de manera eficiente.
Este tipo de coordinación es esencial en entornos complejos como la logística, la asistencia sanitaria o incluso el mantenimiento de infraestructuras, donde múltiples agentes deben operar en paralelo sin interferencias.
A medida que avanzamos hacia un modelo donde los robots humanoides trabajarán codo a codo con humanos y otros sistemas autónomos, los orquestadores serán necesarios para garantizar que la colaboración entre ellos sea fluida, eficiente y alineada con los objetivos que se les hayan propuesto.
♾️ Necesitamos la llegada de la AGI
El nivel de autonomía total para el robot llegará cuando tenga una mayor capacidad de razonar y para eso será necesaria la Inteligencia Artificial General, AGI para los amigos. Es lo que ha aprendido escribiendo este artículo: los niveles de autonomía no solo dependen de la capacidad de decisión que le concedamos al robot, sino sobre todo de su nivel de inteligencia. Podríamos darle toda la autonomía del mundo, pero habría muchas situaciones donde se quedaría bloqueado, porque no tiene la capacidad de improvisación, iniciativa o reacción que tenemos las personas, simplemente, aún no es tan inteligente.
Dicho de otra forma, un robot humanoide en nuestra casa o en una fábrica, será tan útil como la inteligencia artificial que tenga instalada lo permita. Cotidianamente habrá muchas situaciones ante las que sabrá reaccionar, pero también habrá otras donde no tenga el equivalente a una respuesta y ahí será necesaria la intervención humana. Visto así no es tan diferente a como ocurre con las personas, dependiendo de su personalidad y preparación, hay personas que tienen una mayor capacidad de acción y autonomía ante todo tipo de situaciones y otras que son más pasivas o les cuesta más reaccionar.
Por eso, antes de hablar de autonomía total en los robots, primero tendremos que resolver el reto de la AGI. Actualmente, los robots más avanzados pueden ejecutar tareas específicas con gran precisión, adaptarse a ciertos cambios en su entorno e incluso tomar decisiones limitadas basadas en datos y patrones previos. Sin embargo, carecen de lo que realmente define la inteligencia humana: la capacidad de razonar en cualquier contexto, improvisar soluciones novedosas y actuar con iniciativa propia sin depender de reglas predefinidas.
La AGI representa el umbral en el que una IA no solo responderá a estímulos programados o entrenados, sino que podrá aprender de forma continua, generar objetivos propios y comprender el mundo de manera similar a como lo hacemos los humanos. Sin AGI, cualquier robot, por avanzado que sea, seguirá operando dentro de los límites de su programación y entrenamiento. Será autónomo en muchas situaciones cotidianas, pero se quedará bloqueado en otras que requieran creatividad, intuición o juicio moral.
Solo cuando logremos una inteligencia artificial capaz de generalizar conocimientos, aprender en tiempo real y tomar decisiones con un alto grado de independencia, podremos hablar de una verdadera autonomía total en los robots. Hasta entonces, la autonomía seguirá siendo relativa: una combinación entre lo que los humanos le permitimos hacer y lo que su IA le permite entender.
Así se entiende mucho mejor la obsesión de Sam Altman con la AGI, lo cual intuyo que no sucederá de un día para otro como ha pasado con la GenAI, sino que realmente será un camino a seguir, si cada día logramos que la Inteligencia Artificial sea un poco más inteligente, un día nos daremos cuenta de que estará haciendo muchas de las cosas que antes no podía hacer y eso es lo que dotará a los robots humanoides de una utilidad total.
💥 El futuro de los super robots
Siguiendo la línea de razonamiento, ¿qué impide que dotemos a los robots de superpoderes? Hasta ahora los fabricantes se están preocupando de que no tengan características que puedan suponer un peligro para las personas, por ejemplo si el robot se cae encima de un niño podría hacerle mucho daño. Pero qué duda cabe que los robots podrá estar dotados de sensores, herramientas y capacidades que superen con creces las de los humanos.
Esta es una reflexión que llegado el momento habrá que realizar, pero hasta entonces, la tecnología actual ya permite que estas máquinas hagan muchas cosas para las cuales los humanos no estamos preparados. Por ejemplo, en la presentación de Grok 3, hemos escuchado a Elon Musk decir que mandará los robots Optimus de Tesla a Marte. Estos robots no necesitan respirar y sus materiales pueden estar preparados para ser resistentes a la radiación. Así que problema resuelto, la exploración espacial se va a ver muy beneficiada con el uso de Robots Humanoides y eso es muy bueno para todos.
Noticias destacadas de la semana en robótica e IA
Una semana más el panorama de la robótica impulsada por Inteligencia Artificial está de lo más animado. A continuación puedes leer algunas de las noticias destacadas:
💰 Apptronik pasito a pasito se está posicionando como una de las empresas de robots humanoides más avanzadas del mercado y ahora con la ronda de 350 millones de dólares dará un nuevo salto en esta estrategia
⌨️ Pi0 (Pi-Zero) es el nuevo modelo fundacional para robots que traduce comandos de lenguaje natural directamente en acciones físicas y que ha sido desarrollado por desarrollado por Hugging Face y Physical Intelligence
⚛️ SECQAI es una empresa basada en Reino Unido que asegura haber desarrollado el primer QLLM, es decir el primer gran modelo de lenguaje que utiliza las ideas de la computación cuántica para su funcionamiento.
🫂 Meta planea realizar importantes inversiones en el desarrollo de la robótica humanoide y para ello ha empezado en el camino correcto: creando un equipo de especialistas en la materia que estarán liderados por el ex CEO de Cruise, Marc Whitten.
🏭 Persona AI es una de las empresas más nuevas en el panorama de la fabricación de Robots Humanoides y quiere especializarse en el sector industrial. Para hacerlo realidad ha realizado una ronda de unos 10 millones de dólares.