El modelo MolmoAct de Ai2 "piensa en 3D" para desafiar a Nvidia y Google en inteligencia artificial robótica.

¿Quieres recibir información más inteligente en tu bandeja de entrada? Suscríbete a nuestros boletines semanales para recibir solo lo que importa a los líderes empresariales en IA, datos y seguridad. Suscríbete ahora.
La IA física, donde la robótica y los modelos fundamentales se unen, se está convirtiendo rápidamente en un espacio en crecimiento con empresas como Nvidia , Google y Meta que publican investigaciones y experimentan en la fusión de modelos de lenguaje grande (LLM) con robots.
Una nueva investigación del Instituto Allen de IA (Ai2) busca desafiar a Nvidia y Google en el campo de la IA física con el lanzamiento de MolmoAct 7B, un nuevo modelo de código abierto que permite a los robots razonar en el espacio. MolmoAct, basado en el Molmo de código abierto de Ai2, "piensa" en tres dimensiones. También publica sus datos de entrenamiento. Ai2 cuenta con una licencia Apache 2.0 para el modelo, mientras que los conjuntos de datos tienen licencia CC BY-4.0.
Ai2 clasifica a MolmoAct como un modelo de razonamiento de acción, en el que los modelos fundamentales razonan sobre acciones dentro de un espacio físico 3D.
Lo que esto significa es que MolmoAct puede usar sus capacidades de razonamiento para comprender el mundo físico, planificar cómo ocupa el espacio y luego tomar esa acción.
La escalabilidad de la IA alcanza sus límites
Los límites de potencia, el aumento del coste de los tokens y los retrasos en la inferencia están transformando la IA empresarial. Únase a nuestro exclusivo salón para descubrir cómo los mejores equipos:
- Convertir la energía en una ventaja estratégica
- Arquitectura de inferencia eficiente para obtener ganancias de rendimiento reales
- Cómo desbloquear el ROI competitivo con sistemas de IA sostenibles
Reserva tu lugar para estar a la vanguardia : https://bit.ly/4mwGngO
“MolmoAct tiene capacidades de razonamiento en el espacio 3D, a diferencia de los modelos tradicionales de visión-lenguaje-acción (VLA)”, declaró Ai2 a VentureBeat por correo electrónico. “La mayoría de los modelos robóticos son VLA que no piensan ni razonan en el espacio, pero MolmoAct posee esta capacidad, lo que lo hace más eficiente y generalizable desde un punto de vista arquitectónico”.
Dado que los robots existen en el mundo físico, Ai2 afirma que MolmoAct ayuda a los robots a comprender su entorno y a tomar mejores decisiones sobre cómo interactuar con él.
“MolmoAct podría aplicarse en cualquier lugar donde una máquina necesite razonar sobre su entorno físico”, afirmó la compañía. “Lo consideramos principalmente en el ámbito doméstico, ya que ahí reside el mayor desafío para la robótica, ya que allí las cosas son irregulares y cambian constantemente, pero MolmoAct puede aplicarse en cualquier lugar”.
MolmoAct puede comprender el mundo físico mediante la generación de "tokens de percepción espacialmente fundamentados", que son tokens preentrenados y extraídos mediante un autocodificador variacional cuantificado vectorialmente o un modelo que convierte datos de entrada, como vídeos, en tokens. La empresa explicó que estos tokens se diferencian de los utilizados por los VLA en que no son entradas de texto.
Estos permiten a MolmoAct comprender el espacio y codificar estructuras geométricas. Con ellos, el modelo estima la distancia entre objetos.
Una vez estimada la distancia, MolmoAct predice una secuencia de puntos de referencia en el espacio de la imagen o puntos en el área a los que puede establecer una ruta. Después, el modelo comenzará a generar acciones específicas, como bajar un brazo unos centímetros o estirarlo.
Los investigadores de Ai2 dijeron que lograron adaptar el modelo a diferentes realizaciones (es decir, un brazo mecánico o un robot humanoide) "con solo un ajuste mínimo".
Las pruebas comparativas realizadas por Ai2 mostraron que MolmoAct 7B tuvo una tasa de éxito de tareas del 72,1%, superando los modelos de Google, Microsoft y Nvidia.
La investigación de Ai2 es la más reciente en aprovechar las ventajas únicas de los LLM y los VLM, especialmente a medida que la innovación en IA generativa sigue creciendo. Los expertos en el campo consideran el trabajo de Ai2 y otras empresas tecnológicas como pilares fundamentales.
Alan Fern, profesor de la Facultad de Ingeniería de la Universidad Estatal de Oregón , dijo a VentureBeat que la investigación de Ai2 “representa una progresión natural en la mejora de los VLM para la robótica y el razonamiento físico”.
“Aunque no lo consideraría revolucionario, supone un avance importante en el desarrollo de modelos de razonamiento físico 3D más eficaces”, afirmó Fern. “Su enfoque en la comprensión de escenas verdaderamente 3D, en lugar de depender de modelos 2D, marca un cambio notable en la dirección correcta. Han mejorado con respecto a los modelos anteriores, pero estos puntos de referencia aún no logran capturar la complejidad del mundo real y siguen siendo relativamente controlados y de naturaleza artificial”.
Agregó que si bien aún hay margen de mejora en los puntos de referencia, está "ansioso por probar este nuevo modelo en algunas de nuestras tareas de razonamiento físico".
Daniel Maturana, cofundador de la startup Gather AI , elogió la apertura de los datos y señaló que "esta es una gran noticia porque desarrollar y entrenar estos modelos es costoso, por lo que esta es una base sólida sobre la cual construir y perfeccionar para otros laboratorios académicos e incluso para aficionados dedicados".
Crear robots más inteligentes o al menos con mayor conciencia espacial ha sido un sueño acariciado durante mucho tiempo por muchos desarrolladores y científicos informáticos.
Sin embargo, construir robots que procesen rápidamente lo que pueden "ver" y se muevan y reaccionen con fluidez se vuelve difícil. Antes de la llegada de los LLM, los científicos debían codificar cada movimiento. Esto, naturalmente, implicaba mucho trabajo y menos flexibilidad en los tipos de acciones robóticas que podían ocurrir. Ahora, los métodos basados en LLM permiten a los robots (o al menos a los brazos robóticos) determinar las posibles acciones a realizar en función de los objetos con los que interactúan.
SayCan de Google Research ayuda a un robot a razonar sobre tareas mediante un LLM, lo que le permite determinar la secuencia de movimientos necesaria para lograr un objetivo. Meta y OK-Robot de la Universidad de Nueva York utilizan modelos de lenguaje visual para la planificación de movimientos y la manipulación de objetos.
Hugging Face lanzó un robot de escritorio de $299 en un esfuerzo por democratizar el desarrollo de la robótica. Nvidia, que proclamó la IA física como la próxima gran tendencia , lanzó varios modelos para acelerar el entrenamiento robótico, incluyendo Cosmos-Transfer1 .
Fern, de la OSU, afirmó que hay más interés en la IA física, aunque las demostraciones siguen siendo limitadas. Sin embargo, la búsqueda de la inteligencia física general, que elimina la necesidad de programar acciones individuales para los robots, se está volviendo más fácil.
El panorama es más desafiante ahora, con menos oportunidades al alcance de la mano. Por otro lado, los grandes modelos de inteligencia física aún se encuentran en sus etapas iniciales y están mucho más preparados para avances rápidos, lo que hace que este espacio sea particularmente emocionante, afirmó.
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat