Le modèle MolmoAct d'Ai2 « pense en 3D » pour défier Nvidia et Google dans l'IA robotique

Envie d'informations plus pertinentes dans votre boîte mail ? Inscrivez-vous à nos newsletters hebdomadaires pour recevoir uniquement les informations essentielles pour les leaders de l'IA, des données et de la sécurité en entreprise. Abonnez-vous maintenant.
L'IA physique, où la robotique et les modèles de base se rencontrent, devient rapidement un espace en pleine croissance avec des entreprises comme Nvidia , Google et Meta qui publient des recherches et expérimentent la fusion de grands modèles de langage (LLM) avec des robots.
De nouvelles recherches de l'Allen Institute for AI (Ai2) visent à défier Nvidia et Google en matière d'IA physique avec la sortie de MolmoAct 7B, un nouveau modèle open source permettant aux robots de « raisonner dans l'espace ». MolmoAct, basé sur Molmo, le modèle open source d'Ai2, « pense » en trois dimensions. Il publie également ses données d'entraînement. Ai2 dispose d'une licence Apache 2.0 pour le modèle, tandis que les jeux de données sont sous licence CC BY-4.0.
Ai2 classe MolmoAct comme un modèle de raisonnement d'action, dans lequel les modèles de base raisonnent sur les actions dans un espace physique en 3D.
Cela signifie que MolmoAct peut utiliser ses capacités de raisonnement pour comprendre le monde physique, planifier la manière dont il occupe l'espace et ensuite prendre cette mesure.
La mise à l'échelle de l'IA atteint ses limites
Les plafonds de puissance, la hausse du coût des jetons et les délais d'inférence transforment l'IA d'entreprise. Participez à notre salon exclusif pour découvrir comment les meilleures équipes :
- Transformer l'énergie en avantage stratégique
- Concevoir une inférence efficace pour des gains de débit réels
- Libérer un retour sur investissement compétitif grâce à des systèmes d'IA durables
Réservez votre place pour garder une longueur d'avance : https://bit.ly/4mwGngO
« MolmoAct possède des capacités de raisonnement spatial 3D, contrairement aux modèles traditionnels de vision-langage-action (VLA) », a expliqué Ai2 à VentureBeat par courriel. « La plupart des modèles robotiques sont des VLA qui ne pensent ni ne raisonnent dans l'espace, mais MolmoAct possède cette capacité, ce qui le rend plus performant et plus généralisable d'un point de vue architectural. »
Étant donné que les robots existent dans le monde physique, Ai2 affirme que MolmoAct aide les robots à comprendre leur environnement et à prendre de meilleures décisions sur la manière d'interagir avec eux.
« MolmoAct pourrait être appliqué partout où une machine aurait besoin d'analyser son environnement physique », a déclaré l'entreprise. « Nous l'envisageons principalement dans un environnement domestique, car c'est là que réside le plus grand défi pour la robotique, car les choses y sont irrégulières et en constante évolution. MolmoAct, quant à lui, peut être appliqué partout. »
MolmoAct peut comprendre le monde physique en produisant des « jetons de perception spatialement ancrés », des jetons pré-entraînés et extraits à l'aide d'un auto-encodeur variationnel à quantification vectorielle ou d'un modèle convertissant les données d'entrée, comme la vidéo, en jetons. L'entreprise explique que ces jetons diffèrent de ceux utilisés par les VLA car ils ne contiennent pas de texte.
Ces données permettent à MolmoAct d'acquérir une compréhension spatiale et d'encoder des structures géométriques. Grâce à elles, le modèle estime la distance entre les objets.
Une fois la distance estimée, MolmoAct prédit une séquence de points de cheminement « image-espace » ou de points dans la zone vers laquelle il peut définir un chemin. Le modèle commence ensuite à générer des actions spécifiques, comme baisser un bras de quelques centimètres ou s'étirer.
Les chercheurs d'Ai2 ont déclaré qu'ils étaient capables d'adapter le modèle à différentes incarnations (c'est-à-dire un bras mécanique ou un robot humanoïde) « avec seulement un réglage fin minimal ».
Les tests d'analyse comparative menés par Ai2 ont montré que MolmoAct 7B avait un taux de réussite des tâches de 72,1 %, battant les modèles de Google, Microsoft et Nvidia.
Les recherches d'Ai2 sont les dernières à exploiter les avantages uniques des LLM et des VLM, d'autant plus que l'innovation en IA générative continue de s'accélérer. Les experts du domaine considèrent les travaux d'Ai2 et d'autres entreprises technologiques comme des éléments fondamentaux.
Alan Fern, professeur à l' Oregon State University College of Engineering , a déclaré à VentureBeat que la recherche d'Ai2 « représente une progression naturelle dans l'amélioration des VLM pour la robotique et le raisonnement physique ».
« Sans que je le qualifie de révolutionnaire, il s'agit d'une avancée importante dans le développement de modèles de raisonnement physique 3D plus performants », a déclaré Fern. « L'accent mis sur la compréhension de scènes véritablement 3D, plutôt que sur des modèles 2D, marque un tournant notable. Ils ont apporté des améliorations par rapport aux modèles précédents, mais ces benchmarks ne parviennent toujours pas à saisir la complexité du monde réel et restent relativement contrôlés et superficiels. »
Il a ajouté que même s'il y avait encore place à l'amélioration des critères de référence, il était « impatient de tester ce nouveau modèle sur certaines de nos tâches de raisonnement physique ».
Daniel Maturana, cofondateur de la start-up Gather AI , a salué l'ouverture des données, notant que « c'est une excellente nouvelle car le développement et la formation de ces modèles sont coûteux, il s'agit donc d'une base solide sur laquelle s'appuyer et peaufiner pour d'autres laboratoires universitaires et même pour les amateurs dévoués. »
Créer des robots plus intelligents, ou du moins plus conscients de l’espace, est un rêve de longue date pour de nombreux développeurs et informaticiens.
Cependant, construire des robots capables de traiter rapidement ce qu'ils voient et de se déplacer et réagir avec fluidité s'avère complexe. Avant l'avènement des LLM, les scientifiques devaient coder chaque mouvement. Cela impliquait naturellement beaucoup de travail et une flexibilité réduite quant aux types d'actions robotiques possibles. Aujourd'hui, les méthodes basées sur les LLM permettent aux robots (ou du moins aux bras robotisés) de déterminer les actions possibles en fonction des objets avec lesquels ils interagissent.
SayCan, de Google Research, aide un robot à raisonner sur des tâches grâce à un LLM, lui permettant de déterminer la séquence de mouvements nécessaire pour atteindre un objectif. OK-Robot, de Meta et de l'Université de New York, utilise des modèles de langage visuel pour la planification des mouvements et la manipulation d'objets.
Hugging Face a lancé un robot de bureau à 299 $ afin de démocratiser le développement robotique. Nvidia, qui a proclamé l'IA physique comme la prochaine grande tendance , a lancé plusieurs modèles pour accélérer la formation robotique, dont Cosmos-Transfer1 .
Selon Fern, de l'OSU, l'intérêt pour l'IA physique s'accroît, même si les démonstrations restent limitées. Cependant, la quête d'une intelligence physique générale, qui élimine la nécessité de programmer individuellement les actions des robots, devient plus facile.
« Le paysage est désormais plus complexe, les possibilités sont plus nombreuses. En revanche, les grands modèles d'intelligence physique en sont encore à leurs balbutiements et sont bien plus mûrs pour des avancées rapides, ce qui rend ce domaine particulièrement prometteur », a-t-il déclaré.
Si vous souhaitez impressionner votre patron, VB Daily a tout prévu. Nous vous présentons en avant-première les avancées des entreprises en matière d'IA générative, des évolutions réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.
Lisez notre politique de confidentialité
Merci de votre abonnement. Découvrez d'autres newsletters VB ici .
Une erreur s'est produite.

venturebeat