Модель MolmoAct от Ai2 «думает в 3D», чтобы бросить вызов Nvidia и Google в области искусственного интеллекта для робототехники

Хотите получать более ценную информацию? Подпишитесь на наши еженедельные рассылки, чтобы получать только то, что важно для руководителей в сфере корпоративного ИИ, данных и безопасности. Подпишитесь сейчас
Физический ИИ, в котором объединяются робототехника и базовые модели, быстро становится растущей областью, поскольку такие компании, как Nvidia , Google и Meta, публикуют результаты исследований и экспериментов по объединению больших языковых моделей (LLM) с роботами.
Новое исследование Института Аллена по искусственному интеллекту (Ai2) направлено на то, чтобы бросить вызов Nvidia и Google в области физического искусственного интеллекта, выпустив MolmoAct 7B — новую модель с открытым исходным кодом, которая позволяет роботам «рассуждать в пространстве». MolmoAct, основанная на модели Molmo с открытым исходным кодом от Ai2, «думает» в трёх измерениях. Компания также публикует данные для обучения. Ai2 использует лицензию Apache 2.0 для этой модели, а наборы данных — по лицензии CC BY-4.0.
Ai2 классифицирует MolmoAct как модель рассуждения о действии, в которой базовые модели рассуждают о действиях в физическом трехмерном пространстве.
Это означает, что MolmoAct может использовать свои способности к рассуждению, чтобы понимать физический мир, планировать, как он занимает пространство, а затем выполнять эти действия.
Масштабирование ИИ достигает предела
Ограничения мощности, рост стоимости токенов и задержки в выводе данных меняют корпоративный ИИ. Присоединяйтесь к нашему эксклюзивному салону, чтобы узнать, как обстоят дела у лучших команд:
- Превращение энергии в стратегическое преимущество
- Разработка эффективного вывода для реального увеличения пропускной способности
- Обеспечение конкурентоспособной рентабельности инвестиций с помощью устойчивых систем ИИ
Забронируйте свое место, чтобы оставаться впереди : https://bit.ly/4mwGngO
«MolmoAct обладает возможностями рассуждения в трёхмерном пространстве в отличие от традиционных моделей «зрение-язык-действие» (VLA), — сообщил Ai2 в электронном письме VentureBeat. — Большинство моделей робототехники — это VLA, которые не мыслят и не рассуждают в пространстве, но MolmoAct обладает этой возможностью, что делает его более производительным и обобщаемым с точки зрения архитектуры».
Поскольку роботы существуют в физическом мире, Ai2 утверждает, что MolmoAct помогает роботам воспринимать окружающую среду и принимать более обоснованные решения о том, как с ней взаимодействовать.
«MolmoAct можно применять везде, где машине необходимо анализировать своё физическое окружение», — заявили в компании. «Мы рассматриваем его в основном в домашних условиях, поскольку именно там робототехника сталкивается с наибольшими трудностями, поскольку там всё нерегулярно и постоянно меняется, но MolmoAct можно применять где угодно».
MolmoAct может понимать физический мир, выдавая «пространственно обоснованные токены восприятия», которые представляют собой токены, предварительно обученные и извлеченные с помощью векторно-квантованного вариационного автоэнкодера или модели, преобразующей входные данные, такие как видео, в токены. Компания заявила, что эти токены отличаются от используемых VLA тем, что не являются текстовыми входными данными.
Это позволяет MolmoAct получать пространственное представление и кодировать геометрические структуры. С их помощью модель оценивает расстояние между объектами.
Определив предполагаемое расстояние, MolmoAct прогнозирует последовательность точек маршрута в пространстве изображения или точек в области, до которой можно проложить путь. После этого модель начнёт выдавать определённые действия, например, опускание руки на несколько дюймов или вытягивание.
Исследователи Ai2 заявили, что им удалось адаптировать модель к различным вариантам реализации (например, как к механической руке, так и к гуманоидному роботу) «лишь с минимальной тонкой настройкой».
Сравнительные тесты, проведенные Ai2, показали, что показатель успешного выполнения задач MolmoAct 7B составил 72,1%, что превышает показатели моделей от Google, Microsoft и Nvidia.
Исследование Ai2 — одно из последних, в котором используются уникальные преимущества степеней магистра и магистра права, особенно на фоне продолжающегося роста инноваций в области генеративного ИИ. Эксперты в этой области рассматривают работу Ai2 и других технологических компаний как основу для дальнейшего развития.
Алан Ферн, профессор Инженерного колледжа Университета штата Орегон , рассказал VentureBeat, что исследование Ai2 «представляет собой естественный прогресс в совершенствовании VLM для робототехники и физического мышления».
«Хотя я бы не назвал это революционным, это важный шаг вперёд в разработке более совершенных трёхмерных моделей физического мышления», — сказал Ферн. «Их ориентация на истинное понимание трёхмерных сцен, а не на двумерные модели, знаменует собой заметный шаг в правильном направлении. Они добились улучшений по сравнению с предыдущими моделями, но эти тесты всё ещё не отражают всю сложность реального мира и остаются относительно контролируемыми и детскими по своей сути».
Он добавил, что, хотя все еще есть возможности для совершенствования контрольных показателей, он «стремится протестировать эту новую модель на некоторых из наших задач на физическое мышление».
Дэниел Матурана, соучредитель стартапа Gather AI , похвалил открытость данных, отметив, что «это отличная новость, поскольку разработка и обучение этих моделей стоят дорого, поэтому это прочная основа для дальнейшего развития и доработки для других академических лабораторий и даже для увлеченных любителей».
Многие разработчики и специалисты по информатике уже давно мечтают создать более интеллектуальных или, по крайней мере, более пространственно ориентированных роботов.
Однако создание роботов, которые быстро обрабатывают то, что они «видят», а также двигаются и реагируют плавно, представляет собой сложную задачу. До появления LLM учёным приходилось программировать каждое движение. Это, естественно, требовало больших трудозатрат и ограничивало гибкость в выборе типов действий, которые могут выполнять роботы. Теперь же методы, основанные на LLM, позволяют роботам (или, по крайней мере, роботизированным манипуляторам) определять возможные действия в зависимости от объектов, с которыми они взаимодействуют.
SayCan от Google Research помогает роботу рассуждать о задачах, используя степень магистра права, позволяя ему определять последовательность движений, необходимых для достижения цели. OK-Robot от Meta и Нью-Йоркского университета использует визуальные языковые модели для планирования движений и манипулирования объектами.
Hugging Face выпустила настольного робота стоимостью 299 долларов, стремясь демократизировать разработку робототехники. Компания Nvidia, провозгласившая физический ИИ следующим крупным трендом , выпустила несколько моделей для ускоренного обучения роботов, включая Cosmos-Transfer1 .
Ферн из Университета штата Огайо отметил рост интереса к физическому ИИ, несмотря на ограниченное количество демонстрационных образцов. Однако достижение общего физического интеллекта, исключающего необходимость индивидуального программирования действий роботов, становится всё проще.
«Сейчас ситуация стала сложнее, и лёгких решений стало меньше. С другой стороны, крупные модели физического интеллекта всё ещё находятся на ранних стадиях развития и гораздо более готовы к быстрому развитию, что делает эту область особенно интересной», — сказал он.
Если вы хотите произвести впечатление на своего руководителя, VB Daily поможет вам. Мы расскажем вам всё изнутри о том, что компании делают с генеративным ИИ, от изменений в законодательстве до практического внедрения, чтобы вы могли поделиться своими идеями и получить максимальную отдачу от инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Больше новостей VB можно найти здесь .
Произошла ошибка.

venturebeat