O modelo MolmoAct da Ai2 'pensa em 3D' para desafiar a Nvidia e o Google na IA de robótica

Quer insights mais inteligentes na sua caixa de entrada? Assine nossas newsletters semanais para receber apenas o que importa para líderes empresariais em IA, dados e segurança. Assine agora
A IA física, onde a robótica e os modelos básicos se unem, está rapidamente se tornando um espaço crescente com empresas como Nvidia , Google e Meta lançando pesquisas e experimentando a fusão de modelos de grande linguagem (LLMs) com robôs.
Uma nova pesquisa do Instituto Allen para IA (Ai2) visa desafiar a Nvidia e o Google em IA física com o lançamento do MolmoAct 7B, um novo modelo de código aberto que permite que robôs "raciocinem no espaço". O MolmoAct, baseado no Molmo de código aberto da Ai2, "pensa" em três dimensões. A empresa também está divulgando seus dados de treinamento. A Ai2 possui uma licença Apache 2.0 para o modelo, enquanto os conjuntos de dados são licenciados sob CC BY-4.0.
Ai2 classifica o MolmoAct como um Modelo de Raciocínio de Ação, no qual modelos de base raciocinam sobre ações dentro de um espaço físico tridimensional.
O que isso significa é que o MolmoAct pode usar suas capacidades de raciocínio para entender o mundo físico, planejar como ele ocupa o espaço e então tomar essa ação.
O escalonamento da IA atinge seus limites
Limites de energia, aumento nos custos de tokens e atrasos na inferência estão remodelando a IA empresarial. Participe do nosso salão exclusivo para descobrir como as principais equipes estão:
- Transformando energia em vantagem estratégica
- Arquitetando inferência eficiente para ganhos reais de produtividade
- Desbloqueando o ROI competitivo com sistemas de IA sustentáveis
Garanta sua vaga e fique na frente : https://bit.ly/4mwGngO
“O MolmoAct possui recursos de raciocínio no espaço 3D, em comparação com os modelos tradicionais de visão-linguagem-ação (VLA)”, disse a Ai2 à VentureBeat por e-mail. “A maioria dos modelos robóticos são VLAs que não pensam nem raciocinam no espaço, mas o MolmoAct possui essa capacidade, o que o torna mais eficiente e generalizável do ponto de vista arquitetônico.”
Como os robôs existem no mundo físico, a Ai2 afirma que o MolmoAct os ajuda a absorver o ambiente ao redor e a tomar melhores decisões sobre como interagir com ele.
“O MolmoAct pode ser aplicado em qualquer lugar onde uma máquina precise raciocinar sobre seu entorno físico”, afirmou a empresa. “Pensamos nisso principalmente em ambientes domésticos, pois é aí que reside o maior desafio da robótica, já que as coisas são irregulares e mudam constantemente, mas o MolmoAct pode ser aplicado em qualquer lugar.”
O MolmoAct consegue compreender o mundo físico emitindo "tokens de percepção espacialmente fundamentados", que são tokens pré-treinados e extraídos usando um autocodificador variacional quantizado vetorialmente ou um modelo que converte entradas de dados, como vídeo, em tokens. A empresa afirmou que esses tokens diferem daqueles usados por VLAs por não serem entradas de texto.
Eles permitem que o MolmoAct obtenha compreensão espacial e codifique estruturas geométricas. Com isso, o modelo estima a distância entre objetos.
Após estimar a distância, o MolmoAct prevê uma sequência de pontos de referência no "espaço da imagem" ou pontos na área para onde pode definir um caminho. Depois disso, o modelo começará a gerar ações específicas, como abaixar um braço alguns centímetros ou esticar-se.
Os pesquisadores da Ai2 disseram que conseguiram fazer com que o modelo se adaptasse a diferentes formas de realização (por exemplo, um braço mecânico ou um robô humanoide) "com apenas um ajuste fino mínimo".
Testes de benchmark conduzidos pela Ai2 mostraram que o MolmoAct 7B teve uma taxa de sucesso de tarefas de 72,1%, superando modelos do Google, Microsoft e Nvidia.
A pesquisa da Ai2 é a mais recente a aproveitar os benefícios exclusivos dos LLMs e VLMs, especialmente à medida que o ritmo de inovação em IA generativa continua a crescer. Especialistas na área veem o trabalho da Ai2 e de outras empresas de tecnologia como blocos de construção.
Alan Fern, professor da Faculdade de Engenharia da Universidade Estadual do Oregon , disse ao VentureBeat que a pesquisa da Ai2 “representa uma progressão natural no aprimoramento de VLMs para robótica e raciocínio físico”.
“Embora eu não o chamasse de revolucionário, é um importante avanço no desenvolvimento de modelos de raciocínio físico 3D mais eficientes”, disse Fern. “O foco deles na compreensão de cenas verdadeiramente 3D, em vez de depender de modelos 2D, marca uma mudança notável na direção certa. Eles fizeram melhorias em relação aos modelos anteriores, mas esses benchmarks ainda não conseguem capturar a complexidade do mundo real e permanecem relativamente controlados e superficiais por natureza.”
Ele acrescentou que, embora ainda haja espaço para melhorias nos benchmarks, ele está "ansioso para testar este novo modelo em algumas de nossas tarefas de raciocínio físico".
Daniel Maturana, cofundador da start-up Gather AI , elogiou a abertura dos dados, observando que “esta é uma ótima notícia porque desenvolver e treinar esses modelos é caro, então esta é uma base forte para construir e ajustar para outros laboratórios acadêmicos e até mesmo para amadores dedicados”.
Criar robôs mais inteligentes ou, pelo menos, com maior consciência espacial é um sonho antigo de muitos desenvolvedores e cientistas da computação.
No entanto, construir robôs que processem o que podem "ver" rapidamente e se movam e reajam com fluidez se torna difícil. Antes do advento dos LLMs, os cientistas tinham que codificar cada movimento. Isso, naturalmente, significava muito trabalho e menos flexibilidade nos tipos de ações robóticas que podem ocorrer. Agora, métodos baseados em LLMs permitem que robôs (ou pelo menos braços robóticos) determinem as seguintes ações possíveis a serem tomadas com base nos objetos com os quais estão interagindo.
O SayCan, do Google Research, auxilia um robô a raciocinar sobre tarefas usando um LLM, permitindo que o robô determine a sequência de movimentos necessária para atingir um objetivo. O OK-Robot, da Meta e da Universidade de Nova York, utiliza modelos de linguagem visual para planejamento de movimentos e manipulação de objetos.
A Hugging Face lançou um robô de mesa por US$ 299 em um esforço para democratizar o desenvolvimento da robótica. A Nvidia, que proclamou a IA física como a próxima grande tendência , lançou vários modelos para acelerar o treinamento robótico, incluindo o Cosmos-Transfer1 .
Fern, da OSU, afirmou que há mais interesse em IA física, embora as demonstrações ainda sejam limitadas. No entanto, a busca por inteligência física geral, que elimina a necessidade de programar ações individuais para robôs, está se tornando mais fácil.
"O cenário é mais desafiador agora, com menos oportunidades fáceis de serem alcançadas. Por outro lado, grandes modelos de inteligência física ainda estão em estágios iniciais e estão muito mais maduros para avanços rápidos, o que torna esse espaço particularmente interessante", disse ele.
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e obter o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais newsletters do VB aqui .
Ocorreu um erro.

venturebeat