Meta'nın yeni dünya modeli, robotların daha önce hiç karşılaşmadıkları ortamlarda nesneleri manipüle etmelerine olanak tanıyor

Yaklaşık yirmi yıldır kurumsal liderlerin güvendiği etkinliğe katılın. VB Transform, gerçek kurumsal AI stratejisi oluşturan insanları bir araya getiriyor. Daha fazla bilgi edinin
Büyük dil modelleri (LLM'ler) metinde (ve bir dereceye kadar diğer biçimlerde) ustalaşmış olsa da, dinamik, gerçek dünya ortamlarında çalışmak için gereken fiziksel "sağduyudan" yoksundurlar. Bu, neden ve sonucu anlamanın kritik olduğu üretim ve lojistik gibi alanlarda yapay zekanın konuşlandırılmasını sınırlamıştır.
Meta'nın son modeli V-JEPA 2 , video ve fiziksel etkileşimlerden bir dünya modeli öğrenerek bu boşluğu kapatmaya yönelik bir adım atıyor.
V-JEPA 2, birçok uç durum içeren öngörülemeyen ortamlarda sonuçları tahmin etmeyi ve eylemleri planlamayı gerektiren AI uygulamaları oluşturmaya yardımcı olabilir. Bu yaklaşım, fiziksel ortamlarda daha yetenekli robotlara ve gelişmiş otomasyona doğru net bir yol sağlayabilir.
İnsanlar çevrelerini gözlemleyerek erken yaşlarda fiziksel sezgi geliştirirler. Atılan bir top gördüğünüzde, içgüdüsel olarak yörüngesini bilir ve nereye düşeceğini tahmin edebilirsiniz. V-JEPA 2, fiziksel dünyanın nasıl işlediğine dair bir yapay zeka sisteminin iç simülasyonu olan benzer bir "dünya modeli" öğrenir.
model, kurumsal uygulamalar için olmazsa olmaz olan üç temel yetenek üzerine kurulmuştur: bir sahnede ne olduğunu anlamak, bir eyleme göre sahnenin nasıl değişeceğini tahmin etmek ve belirli bir hedefe ulaşmak için bir dizi eylem planlamak. Meta'nın blogunda belirttiği gibi, "uzun vadeli vizyonu, dünya modellerinin yapay zeka ajanlarının fiziksel dünyada planlama ve akıl yürütme yapmasını sağlayacak olmasıdır."
Video Ortak Gömme Tahmini Mimarisi (V-JEPA) olarak adlandırılan modelin mimarisi iki temel parçadan oluşur. Bir "kodlayıcı" bir video klibi izler ve onu bir gömme olarak bilinen kompakt bir sayısal özete yoğunlaştırır. Bu gömme, sahnedeki nesneler ve ilişkileri hakkında temel bilgileri yakalar. Daha sonra ikinci bir bileşen olan "tahmin edici" bu özeti alır ve sahnenin nasıl gelişeceğini hayal ederek bir sonraki özetin nasıl görüneceğine dair bir tahmin üretir.

Bu mimari, ilk olarak I-JEPA ile görüntülere uygulanan ve şimdi videoya doğru ilerleyen JEPA çerçevesinin en son evrimidir ve dünya modelleri oluşturmada tutarlı bir yaklaşım sergiler.
Gelecekteki bir karedeki her pikselin tam rengini tahmin etmeye çalışan üretken AI modellerinin aksine (hesaplama açısından yoğun bir görev), V-JEPA 2 soyut bir alanda çalışır. Bir nesnenin dokusu veya arka plan ayrıntıları yerine, bir sahnenin konumu ve yörüngesi gibi üst düzey özelliklerini tahmin etmeye odaklanır ve bu da onu yalnızca 1,2 milyar parametreyle diğer daha büyük modellerden çok daha verimli hale getirir
Bu, daha düşük hesaplama maliyetleri anlamına gelir ve onu gerçek dünya ortamlarında dağıtım için daha uygun hale getirir.
V-JEPA 2 iki aşamada eğitilir. İlk olarak, bir milyondan fazla saatlik etiketsiz internet videosunu izleyerek kendi kendini denetleyen öğrenme yoluyla temel fizik anlayışını oluşturur. Nesnelerin nasıl hareket ettiğini ve etkileşime girdiğini basitçe gözlemleyerek, herhangi bir insan rehberliği olmadan genel amaçlı bir dünya modeli geliştirir.
İkinci aşamada, bu önceden eğitilmiş model küçük, uzmanlaşmış bir veri kümesinde ince ayar yapılır. V-JEPA 2, bir robotun görevleri yerine getirdiğini gösteren sadece 62 saatlik videoyu ve karşılık gelen kontrol komutlarını işleyerek, belirli eylemleri fiziksel sonuçlarına bağlamayı öğrenir. Bu, gerçek dünyada eylemleri planlayabilen ve kontrol edebilen bir modelle sonuçlanır.

Bu iki aşamalı eğitim, gerçek dünya otomasyonu için kritik bir yeteneği etkinleştirir: sıfır atışlı robot planlaması. V-JEPA 2 ile çalışan bir robot, yeni bir ortama yerleştirilebilir ve daha önce hiç karşılaşmadığı nesneleri, o belirli ayar için yeniden eğitilmesine gerek kalmadan başarıyla manipüle edebilir.
Bu, tam olarak çalışacakları robot ve ortamdan eğitim verisi gerektiren önceki modellere göre önemli bir ilerlemedir. Model, açık kaynaklı bir veri kümesi üzerinde eğitildi ve ardından Meta'nın laboratuvarlarındaki farklı robotlara başarıyla dağıtıldı.
Örneğin, bir nesneyi almak gibi bir görevi tamamlamak için robota istenen sonucun bir hedef görüntüsü verilir. Daha sonra, olası bir sonraki hareket aralığını dahili olarak simüle etmek için V-JEPA 2 tahmincisini kullanır. Her hayal edilen eylemi hedefe ne kadar yaklaştığına göre puanlar, en yüksek puanlı eylemi gerçekleştirir ve görev tamamlanana kadar süreci tekrarlar.
Bu yöntem kullanılarak model, yeni ortamlardaki yabancı nesnelerle yapılan seçme ve yerleştirme görevlerinde %65 ile %80 arasında başarı oranlarına ulaştı.
Yeni durumlarda planlama ve harekete geçme yeteneğinin iş operasyonları için doğrudan etkileri vardır. Lojistik ve üretimde, kapsamlı yeniden programlama olmadan ürünlerdeki ve depo düzenlerindeki değişiklikleri idare edebilen daha uyumlu robotlara olanak tanır. Bu, şirketler fabrikalarda ve montaj hatlarında insansı robotların konuşlandırılmasını araştırırken özellikle yararlı olabilir.
Aynı dünya modeli, şirketlerin yeni süreçleri simüle etmesine veya diğer yapay zekaları fiziksel olarak doğru bir sanal ortamda eğitmesine olanak tanıyan son derece gerçekçi dijital ikizlere güç sağlayabilir. Endüstriyel ortamlarda, bir model makinelerin video akışlarını izleyebilir ve fizik konusundaki öğrenilmiş anlayışına dayanarak güvenlik sorunlarını ve arızaları gerçekleşmeden önce tahmin edebilir.
Bu araştırma, Meta'nın "gelişmiş makine zekası (AMI)" olarak adlandırdığı, yapay zeka sistemlerinin "dünyayı insanlar gibi öğrenebileceği, alışılmadık görevleri nasıl yürüteceğini planlayabileceği ve etrafımızdaki sürekli değişen dünyaya verimli bir şekilde uyum sağlayabileceği" noktaya doğru önemli bir adımdır.
Meta, modeli ve eğitim kodunu yayınladı ve "bu araştırma etrafında geniş bir topluluk oluşturarak, yapay zekanın fiziksel dünyayla etkileşimini dönüştürebilecek dünya modelleri geliştirme nihai hedefimize doğru ilerlemeyi sağlamayı" umuyor.
V-JEPA 2, robotikleri bulut ekiplerinin zaten tanıdığı yazılım tanımlı modele daha da yakınlaştırıyor: bir kez önceden eğit, her yere dağıt. Model genel fiziği kamuya açık videodan öğrendiği ve yalnızca birkaç düzine saatlik göreve özgü görüntüye ihtiyaç duyduğu için, işletmeler pilot projeleri genellikle yavaşlatan veri toplama döngüsünü kısaltabilir. Pratik açıdan, uygun fiyatlı bir masaüstü kolunda bir al ve yerleştir robotunun prototipini oluşturabilir, ardından aynı politikayı binlerce yeni örnek toplamadan veya özel hareket komut dosyaları yazmadan fabrika katındaki endüstriyel bir teçhizata aktarabilirsiniz.
Daha düşük eğitim yükü maliyet denklemini de yeniden şekillendiriyor. 1,2 milyar parametrede, V-JEPA 2 tek bir üst düzey GPU'ya rahatça sığar ve soyut tahmin hedefleri çıkarım yükünü daha da azaltır. Bu, ekiplerin şirket içinde veya uçta kapalı devre denetimi çalıştırmasına olanak tanır, bulut gecikmesinden ve tesis dışında video akışıyla gelen uyumluluk sorunlarından kaçınır. Bir zamanlar büyük hesaplama kümelerine giden bütçe bunun yerine ekstra sensörleri, yedekliliği veya daha hızlı yineleme döngülerini finanse edebilir.
Patronunuzu etkilemek istiyorsanız, VB Daily sizin için burada. Şirketlerin üretken yapay zeka ile ilgili olarak düzenleyici değişikliklerden pratik dağıtımlara kadar neler yaptıklarına dair içeriden bilgiler veriyoruz, böylece maksimum yatırım getirisi için içgörüler paylaşabilirsiniz.
Gizlilik Politikamızı okuyun
Abone olduğunuz için teşekkürler. Daha fazla VB bültenine buradan göz atın.
Bir hata oluştu.

venturebeat