Ai2'nin MolmoAct modeli, robotik yapay zeka alanında Nvidia ve Google'a meydan okuyacak '3 boyutlu düşünüyor'

Gelen kutunuza daha akıllı içgörüler mi gelsin? Kurumsal yapay zeka, veri ve güvenlik liderleri için yalnızca önemli olan bilgileri almak için haftalık bültenlerimize kaydolun. Hemen Abone Olun
Robotik ve temel modellerin bir araya geldiği fiziksel yapay zeka, Nvidia , Google ve Meta gibi şirketlerin büyük dil modellerini (LLM) robotlarla birleştirmeye yönelik araştırmalar yayınlaması ve deneyler yapmasıyla hızla büyüyen bir alan haline geliyor.
Allen Yapay Zeka Enstitüsü'nün (Ai2) yeni araştırması, robotların "uzayda akıl yürütmesini" sağlayan yeni bir açık kaynaklı model olan MolmoAct 7B'yi piyasaya sürerek fiziksel yapay zeka alanında Nvidia ve Google'a meydan okumayı hedefliyor. Ai2'nin açık kaynaklı Molmo'suna dayanan MolmoAct, üç boyutlu "düşünüyor". Ayrıca eğitim verilerini de yayınlıyor. Ai2, model için Apache 2.0 lisansına sahipken, veri kümeleri CC BY-4.0 lisansı altında.
Ai2, MolmoAct'ı, temel modellerin fiziksel, 3 boyutlu bir uzaydaki eylemler hakkında akıl yürüttüğü bir Eylem Akıl Yürütme Modeli olarak sınıflandırır.
Bunun anlamı, MolmoAct'ın akıl yürütme yeteneklerini kullanarak fiziksel dünyayı anlayabilmesi, onun alanı nasıl kaplayacağını planlayabilmesi ve ardından bu eylemi gerçekleştirebilmesidir.
Yapay Zeka Ölçeklendirmesi Sınırlarına Ulaştı
Güç sınırlamaları, artan token maliyetleri ve çıkarım gecikmeleri, kurumsal yapay zekayı yeniden şekillendiriyor. En iyi ekiplerin nasıl çalıştığını keşfetmek için özel salonumuza katılın:
- Enerjiyi stratejik bir avantaja dönüştürmek
- Gerçek verimlilik kazanımları için verimli çıkarım mimarisi oluşturma
- Sürdürülebilir yapay zeka sistemleriyle rekabetçi yatırım getirisinin kilidini açma
Önde kalmak için yerinizi ayırtın : https://bit.ly/4mwGngO
Ai2, VentureBeat'e gönderdiği bir e-postada, "MolmoAct, geleneksel görme-dil-eylem (VLA) modellerine kıyasla 3B uzayda akıl yürütme yeteneğine sahip," dedi. "Çoğu robotik model, uzayda düşünmeyen veya akıl yürütmeyen VLA'lardır, ancak MolmoAct bu yeteneğe sahip ve bu da onu mimari açıdan daha performanslı ve genelleştirilebilir kılıyor."
Robotlar fiziksel dünyada var olduklarından, Ai2, MolmoAct'ın robotların çevrelerini algılamalarına ve onlarla nasıl etkileşime gireceklerine dair daha iyi kararlar almalarına yardımcı olduğunu iddia ediyor.
Şirket, "MolmoAct, bir makinenin fiziksel çevresi hakkında akıl yürütmesi gereken her yerde uygulanabilir," dedi. "Bunu esas olarak ev ortamında düşünüyoruz çünkü robotik için en büyük zorluk orada yatıyor, çünkü oradaki her şey düzensiz ve sürekli değişiyor, ancak MolmoAct her yerde uygulanabilir."
MolmoAct, vektör-kuantize varyasyonel bir otokodlayıcı veya video gibi veri girdilerini belirteçlere dönüştüren bir model kullanılarak önceden eğitilmiş ve çıkarılmış belirteçler olan "mekansal olarak temellendirilmiş algı belirteçleri" üreterek fiziksel dünyayı anlayabilir. Şirket, bu belirteçlerin VLA'lar tarafından kullanılanlardan farklı olduğunu, metin girdisi olmadıklarını belirtti.
Bunlar, MolmoAct'ın uzamsal anlayış kazanmasını ve geometrik yapıları kodlamasını sağlar. Bunlar sayesinde model, nesneler arasındaki mesafeyi tahmin eder.
MolmoAct, tahmini bir mesafeye sahip olduktan sonra, yol belirleyebileceği alandaki bir dizi "görüntü alanı" geçiş noktasını veya noktayı tahmin eder. Bundan sonra, model, bir kolu birkaç santim aşağı indirmek veya esnemek gibi belirli eylemleri çıktı olarak vermeye başlar.
Ai2 araştırmacıları, modelin farklı düzenlemelere (örneğin mekanik bir kol veya insansı bir robot) "sadece minimal ince ayarlarla" uyum sağlamasını başardıklarını söyledi.
Ai2 tarafından gerçekleştirilen kıyaslama testleri, MolmoAct 7B'nin Google, Microsoft ve Nvidia'nın modellerini geride bırakarak %72,1'lik bir görev başarı oranına sahip olduğunu gösterdi.
Ai2'nin araştırması, özellikle üretken yapay zeka alanındaki inovasyon hızının artmaya devam ettiği bir dönemde, LLM ve VLM'lerin benzersiz avantajlarından yararlanan en yeni araştırmadır. Alanındaki uzmanlar, Ai2 ve diğer teknoloji şirketlerinin çalışmalarını temel yapı taşları olarak görüyor.
Oregon Eyalet Üniversitesi Mühendislik Fakültesi'nden Profesör Alan Fern, VentureBeat'e Ai2'nin araştırmasının "robotik ve fiziksel muhakeme için VLM'leri geliştirmede doğal bir ilerlemeyi temsil ettiğini" söyledi.
"Ben buna devrim niteliğinde diyemem ama daha yetenekli 3B fiziksel akıl yürütme modellerinin geliştirilmesinde önemli bir adım," dedi Fern. "2B modellere güvenmek yerine gerçek 3B sahne anlayışına odaklanmaları, doğru yönde kayda değer bir değişimi işaret ediyor. Önceki modellere göre iyileştirmeler yapmış olsalar da, bu kıyaslamalar gerçek dünyadaki karmaşıklığı yakalamakta hâlâ yetersiz kalıyor ve nispeten kontrollü ve oyuncaksı bir yapıda kalıyor."
Ölçütlerde hala iyileştirmeye yer olduğunu da sözlerine ekleyen araştırmacı, "Bu yeni modeli fiziksel muhakeme görevlerimizden bazılarında test etmek için sabırsızlanıyorum" dedi.
Gather AI adlı girişimin kurucu ortağı Daniel Maturana, verilerin açıklığını överek, "Bu harika bir haber çünkü bu modelleri geliştirmek ve eğitmek pahalı, dolayısıyla bu, diğer akademik laboratuvarlar ve hatta bu işe gönül vermiş amatörler için üzerine inşa edilebilecek ve ince ayar yapılabilecek güçlü bir temel" dedi.
Birçok geliştirici ve bilgisayar bilimcisinin uzun zamandır hayalini kurduğu, daha zeki veya en azından mekansal farkındalığı daha yüksek robotlar yaratmak.
Ancak, "gördüklerini" hızlı bir şekilde işleyen, hareket eden ve sorunsuz tepki veren robotlar inşa etmek giderek zorlaşıyor. Hukuk alanında Yüksek Lisans (LL.M) programlarının ortaya çıkmasından önce, bilim insanları her hareketi tek tek kodlamak zorundaydı. Bu da doğal olarak çok fazla iş ve gerçekleşebilecek robotik eylem türlerinde daha az esneklik anlamına geliyordu. Şimdi ise, LLM tabanlı yöntemler, robotların (veya en azından robotik kolların) etkileşimde bulunduğu nesnelere göre aşağıdaki olası eylemleri belirlemesine olanak tanıyor.
Google Araştırma'nın SayCan programı , LLM kullanarak bir robotun görevler hakkında akıl yürütmesine yardımcı oluyor ve robotun bir hedefe ulaşmak için gereken hareket sırasını belirlemesini sağlıyor. Meta ve New York Üniversitesi'nin OK-Robot programı ise hareket planlama ve nesne manipülasyonu için görsel dil modellerini kullanıyor.
Hugging Face, robotik gelişimi demokratikleştirme çabasıyla 299 dolarlık bir masaüstü robotu piyasaya sürdü. Fiziksel yapay zekanın bir sonraki büyük trend olacağını ilan eden Nvidia, robotik eğitimi hızlandırmak için Cosmos-Transfer1 dahil olmak üzere birkaç model piyasaya sürdü.
OSU'dan Fern, demolar sınırlı olsa da fiziksel yapay zekaya olan ilginin arttığını söyledi. Ancak, robotlar için eylemleri ayrı ayrı programlama ihtiyacını ortadan kaldıran genel fiziksel zekaya ulaşma arayışı giderek kolaylaşıyor.
"Artık manzara daha zorlu, daha az kolay hedef var. Öte yandan, büyük fiziksel zeka modelleri henüz erken aşamalarında ve hızlı ilerlemeler için çok daha olgun, bu da bu alanı özellikle heyecan verici kılıyor," dedi.
Patronunuzu etkilemek istiyorsanız, VB Daily size yardımcı olabilir. Şirketlerin üretken yapay zeka ile ilgili neler yaptığına dair, mevzuat değişikliklerinden pratik uygulamalara kadar her şeyi size aktarıyoruz, böylece maksimum yatırım getirisi için fikirlerinizi paylaşabilirsiniz.
Gizlilik Politikamızı okuyun
Abone olduğunuz için teşekkür ederiz. Daha fazla VB bültenine buradan ulaşabilirsiniz.
Bir hata oluştu.

venturebeat