Новая модель мира Meta позволяет роботам манипулировать объектами в средах, с которыми они никогда раньше не сталкивались

Присоединяйтесь к мероприятию, которому доверяют руководители предприятий уже почти два десятилетия. VB Transform объединяет людей, которые создают настоящую стратегию искусственного интеллекта для предприятий. Узнать больше
Хотя большие языковые модели (LLM) освоили текст (и другие модальности в некоторой степени), им не хватает физического «здравого смысла» для работы в динамических реальных средах. Это ограничило применение ИИ в таких областях, как производство и логистика, где понимание причин и следствий имеет решающее значение.
Последняя модель Meta, V-JEPA 2 , делает шаг к преодолению этого разрыва, изучая модель мира на основе видео и физических взаимодействий.
V-JEPA 2 может помочь в создании приложений ИИ, требующих прогнозирования результатов и планирования действий в непредсказуемых средах со множеством пограничных случаев. Этот подход может обеспечить четкий путь к более способным роботам и продвинутой автоматизации в физических средах.
Физическая интуиция у людей развивается на ранних этапах жизни, когда они наблюдают за своим окружением. Если вы видите брошенный мяч, вы инстинктивно знаете его траекторию и можете предсказать, где он приземлится. V-JEPA 2 изучает похожую «модель мира», которая является внутренним моделированием системы ИИ того, как функционирует физический мир.
Модель построена на трех основных возможностях, которые необходимы для корпоративных приложений: понимание того, что происходит на сцене, прогнозирование того, как сцена изменится на основе действия, и планирование последовательности действий для достижения определенной цели. Как заявляет Meta в своем блоге , ее «долгосрочное видение заключается в том, что модели мира позволят агентам ИИ планировать и рассуждать в физическом мире».
Архитектура модели, называемая Video Joint Embedding Predictive Architecture (V-JEPA), состоит из двух ключевых частей. «Кодер» просматривает видеоклип и сжимает его в компактное числовое резюме, известное как вложение . Это вложение фиксирует основную информацию об объектах и их отношениях в сцене. Второй компонент, «предиктор», затем берет это резюме и представляет, как будет развиваться сцена, генерируя прогноз того, как будет выглядеть следующее резюме.

Эта архитектура представляет собой новейшую разработку фреймворка JEPA, который впервые был применен к изображениям с помощью I-JEPA , а теперь распространяется и на видео, демонстрируя последовательный подход к построению моделей мира.
В отличие от генеративных моделей ИИ, которые пытаются предсказать точный цвет каждого пикселя в будущем кадре — задача, требующая больших вычислительных затрат — V-JEPA 2 работает в абстрактном пространстве. Он фокусируется на прогнозировании высокоуровневых характеристик сцены, таких как положение и траектория объекта, а не на его текстуре или фоновых деталях, что делает его гораздо более эффективным, чем другие более крупные модели, всего при 1,2 миллиарда параметров.
Это приводит к снижению затрат на вычисления и делает решение более подходящим для развертывания в реальных условиях.
V-JEPA 2 обучается в два этапа. Во-первых, он формирует свое фундаментальное понимание физики посредством самостоятельного обучения , просматривая более миллиона часов немаркированных интернет-видео. Просто наблюдая за тем, как объекты движутся и взаимодействуют, он разрабатывает универсальную модель мира без какого-либо человеческого руководства.
На втором этапе эта предварительно обученная модель настраивается на небольшом специализированном наборе данных. Обрабатывая всего 62 часа видео, показывающего робота, выполняющего задачи, вместе с соответствующими командами управления, V-JEPA 2 учится связывать конкретные действия с их физическими результатами. В результате получается модель, которая может планировать и контролировать действия в реальном мире.

Это двухэтапное обучение обеспечивает критически важную возможность для автоматизации в реальном мире: планирование робота с нуля. Робот, работающий на V-JEPA 2, может быть развернут в новой среде и успешно манипулировать объектами, с которыми он никогда раньше не сталкивался, без необходимости переобучения для этой конкретной среды.
Это значительный шаг вперед по сравнению с предыдущими моделями, которым требовались данные для обучения от точного робота и среды, где они будут работать. Модель была обучена на наборе данных с открытым исходным кодом, а затем успешно развернута на разных роботах в лабораториях Meta.
Например, для выполнения задачи, например, поднятия предмета, роботу дается изображение цели желаемого результата. Затем он использует предиктор V-JEPA 2 для внутреннего моделирования ряда возможных следующих ходов. Он оценивает каждое воображаемое действие на основе того, насколько близко оно приближается к цели, выполняет действие с наивысшим рейтингом и повторяет процесс до тех пор, пока задача не будет выполнена.
Используя этот метод, модель достигла показателей успешности от 65% до 80% при выполнении задач по перемещению незнакомых предметов в новых условиях.
Эта способность планировать и действовать в новых ситуациях имеет прямые последствия для бизнес-операций. В логистике и производстве она позволяет создавать более адаптивных роботов, которые могут справляться с изменениями в продуктах и планировках складов без обширного перепрограммирования. Это может быть особенно полезно, поскольку компании изучают возможность использования гуманоидных роботов на заводах и сборочных линиях.
Та же модель мира может питать высокореалистичные цифровые близнецы, позволяя компаниям моделировать новые процессы или обучать другие ИИ в физически точной виртуальной среде. В промышленных условиях модель может контролировать видеопотоки машин и, основываясь на своем изученном понимании физики, предсказывать проблемы безопасности и сбои до того, как они произойдут.
Это исследование является ключевым шагом на пути к тому, что Мета называет «продвинутым машинным интеллектом (AMI)», где системы ИИ могут «изучать мир так же, как это делают люди, планировать выполнение незнакомых задач и эффективно адаптироваться к постоянно меняющемуся миру вокруг нас».
Компания Meta выпустила модель и ее обучающий код и надеется «создать широкое сообщество вокруг этого исследования, способствуя прогрессу в достижении нашей конечной цели — разработке моделей мира, которые могут преобразовать способ взаимодействия ИИ с физическим миром».
V-JEPA 2 приближает робототехнику к программно-определяемой модели, которую уже знают облачные команды: предварительно обучить один раз, развернуть где угодно. Поскольку модель изучает общую физику из общедоступного видео и требует всего несколько десятков часов отснятого материала для конкретной задачи, предприятия могут сократить цикл сбора данных, который обычно тормозит пилотные проекты. На практике вы можете создать прототип робота-перехватчика на доступной настольной руке, а затем развернуть ту же политику на промышленной установке в заводском цехе, не собирая тысячи новых образцов или не создавая пользовательских сценариев движения.
Более низкие затраты на обучение также меняют уравнение стоимости. При 1,2 миллиарда параметров V-JEPA 2 удобно размещается на одном высокопроизводительном GPU, а его абстрактные цели прогнозирования еще больше снижают нагрузку вывода. Это позволяет командам запускать замкнутое управление локально или на периферии, избегая задержек в облаке и проблем с соответствием, которые возникают при потоковой передаче видео за пределами завода. Бюджет, который когда-то шел на массивные вычислительные кластеры, может вместо этого финансировать дополнительные датчики, избыточность или более быстрые циклы итераций.
Если вы хотите произвести впечатление на своего босса, VB Daily вам поможет. Мы даем вам внутреннюю информацию о том, что компании делают с генеративным ИИ, от изменений в регулировании до практических развертываний, чтобы вы могли поделиться идеями для максимальной окупаемости инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .
Произошла ошибка.

venturebeat