Il nuovo modello mondiale di Meta consente ai robot di manipolare oggetti in ambienti mai visti prima

Partecipa all'evento di cui i leader aziendali si fidano da quasi vent'anni. VB Transform riunisce le persone che sviluppano una vera strategia di intelligenza artificiale aziendale. Scopri di più
Sebbene i modelli linguistici di grandi dimensioni (LLM) abbiano padroneggiato il testo (e, in una certa misura, altre modalità), mancano del "buon senso" fisico per operare in ambienti dinamici e reali. Ciò ha limitato l'impiego dell'IA in settori come la produzione e la logistica, dove la comprensione di causa ed effetto è fondamentale.
L'ultimo modello di Meta, V-JEPA 2 , compie un passo avanti nel colmare questa lacuna, apprendendo un modello del mondo da interazioni video e fisiche.
V-JEPA 2 può contribuire a creare applicazioni di intelligenza artificiale che richiedono la previsione dei risultati e la pianificazione di azioni in ambienti imprevedibili, caratterizzati da numerosi casi limite. Questo approccio può aprire la strada a robot più efficienti e a un'automazione avanzata in ambienti fisici.
Gli esseri umani sviluppano l'intuizione fisica fin dai primi anni di vita osservando l'ambiente circostante. Se vedi una palla lanciata, ne conosci istintivamente la traiettoria e puoi prevedere dove atterrerà. V-JEPA 2 apprende un "modello del mondo" simile, ovvero la simulazione interna di un sistema di intelligenza artificiale del funzionamento del mondo fisico.
Il modello si basa su tre capacità fondamentali, essenziali per le applicazioni aziendali: comprendere cosa accade in una scena, prevedere come la scena cambierà in base a un'azione e pianificare una sequenza di azioni per raggiungere un obiettivo specifico. Come afferma Meta sul suo blog , la sua "visione a lungo termine è che i modelli del mondo consentiranno agli agenti di intelligenza artificiale di pianificare e ragionare nel mondo fisico".
L'architettura del modello, chiamata Video Joint Embedding Predictive Architecture (V-JEPA), è composta da due componenti chiave. Un "encoder" guarda un videoclip e lo condensa in un riepilogo numerico compatto, noto come embedding . Questo embedding cattura le informazioni essenziali sugli oggetti e sulle loro relazioni nella scena. Un secondo componente, il "predictor", prende quindi questo riepilogo e immagina come si evolverà la scena, generando una previsione di come apparirà il riepilogo successivo.

Questa architettura rappresenta l'ultima evoluzione del framework JEPA, applicato per la prima volta alle immagini con I-JEPA e ora esteso ai video, dimostrando un approccio coerente alla creazione di modelli del mondo.
A differenza dei modelli di intelligenza artificiale generativa che cercano di prevedere il colore esatto di ogni pixel in un fotogramma futuro – un compito computazionalmente impegnativo – V-JEPA 2 opera in uno spazio astratto. Si concentra sulla previsione delle caratteristiche di alto livello di una scena, come la posizione e la traiettoria di un oggetto, piuttosto che sulla sua texture o sui dettagli dello sfondo, rendendolo molto più efficiente di altri modelli più grandi con soli 1,2 miliardi di parametri.
Ciò si traduce in minori costi di elaborazione e rende la soluzione più adatta all'implementazione in contesti reali.
V-JEPA 2 si forma in due fasi. In primo luogo, sviluppa le sue conoscenze fondamentali della fisica attraverso l'apprendimento auto-supervisionato , guardando oltre un milione di ore di video online non classificati. Semplicemente osservando come gli oggetti si muovono e interagiscono, sviluppa un modello del mondo di uso generale senza alcuna guida umana.
Nella seconda fase, questo modello pre-addestrato viene perfezionato su un piccolo set di dati specializzato. Elaborando solo 62 ore di video che mostrano un robot mentre esegue compiti, insieme ai relativi comandi di controllo, V-JEPA 2 impara a collegare azioni specifiche ai relativi risultati fisici. Il risultato è un modello in grado di pianificare e controllare azioni nel mondo reale.

Questo addestramento in due fasi abilita una capacità fondamentale per l'automazione nel mondo reale: la pianificazione a zero-shot dei robot. Un robot basato su V-JEPA 2 può essere impiegato in un nuovo ambiente e manipolare con successo oggetti mai incontrati prima, senza dover essere riqualificato per quello specifico ambiente.
Si tratta di un progresso significativo rispetto ai modelli precedenti, che richiedevano dati di addestramento specifici per il robot e l'ambiente in cui avrebbe operato. Il modello è stato addestrato su un set di dati open source e poi implementato con successo su diversi robot nei laboratori di Meta.
Ad esempio, per completare un compito come raccogliere un oggetto, al robot viene fornita un'immagine obiettivo del risultato desiderato. Quindi utilizza il predittore V-JEPA 2 per simulare internamente una serie di possibili mosse successive. Attribuisce un punteggio a ogni azione immaginata in base a quanto si avvicina all'obiettivo, esegue l'azione con il punteggio più alto e ripete il processo fino al completamento del compito.
Utilizzando questo metodo, il modello ha raggiunto percentuali di successo comprese tra il 65% e l'80% nelle attività di pick-and-place con oggetti non familiari in nuovi contesti.
Questa capacità di pianificare e agire in situazioni innovative ha implicazioni dirette per le operazioni aziendali. Nella logistica e nella produzione, consente robot più adattabili, in grado di gestire variazioni nei prodotti e nella configurazione dei magazzini senza dover ricorrere a riprogrammazioni complesse. Questo può rivelarsi particolarmente utile ora che le aziende stanno esplorando l'impiego di robot umanoidi in fabbriche e linee di assemblaggio.
Lo stesso modello globale può alimentare gemelli digitali altamente realistici, consentendo alle aziende di simulare nuovi processi o addestrare altre IA in un ambiente virtuale fisicamente accurato. In ambito industriale, un modello potrebbe monitorare i feed video dei macchinari e, sulla base della sua conoscenza della fisica, prevedere problemi di sicurezza e guasti prima che si verifichino.
Questa ricerca rappresenta un passo fondamentale verso quella che Meta definisce "intelligenza artificiale avanzata (AMI)", in cui i sistemi di intelligenza artificiale possono "imparare a conoscere il mondo come fanno gli esseri umani, pianificare come eseguire compiti non familiari e adattarsi in modo efficiente al mondo in continua evoluzione che ci circonda".
Meta ha rilasciato il modello e il relativo codice di addestramento e spera di "costruire una vasta comunità attorno a questa ricerca, guidando i progressi verso il nostro obiettivo finale di sviluppare modelli del mondo in grado di trasformare il modo in cui l'intelligenza artificiale interagisce con il mondo fisico".
V-JEPA 2 avvicina la robotica al modello software-defined che i team cloud già conoscono: pre-addestrare una volta, distribuire ovunque. Poiché il modello apprende la fisica generale da video pubblici e necessita solo di poche decine di ore di riprese specifiche per ogni attività, le aziende possono ridurre drasticamente il ciclo di raccolta dati che in genere rallenta i progetti pilota. In pratica, è possibile prototipare un robot pick-and-place su un braccio da tavolo economico, quindi applicare la stessa procedura su un impianto industriale in fabbrica senza dover raccogliere migliaia di nuovi campioni o scrivere script di movimento personalizzati.
Un minore overhead di training rimodella anche l'equazione dei costi. Con 1,2 miliardi di parametri, V-JEPA 2 si adatta comodamente a una singola GPU di fascia alta e i suoi obiettivi di predizione astratti riducono ulteriormente il carico di inferenza. Ciò consente ai team di eseguire il controllo a ciclo chiuso in locale o all'edge, evitando la latenza del cloud e i problemi di conformità che derivano dallo streaming video all'esterno dell'impianto. Il budget che un tempo era destinato a enormi cluster di elaborazione può invece finanziare sensori aggiuntivi, ridondanza o cicli di iterazione più rapidi.
Se vuoi fare colpo sul tuo capo, VB Daily è la soluzione che fa per te. Ti offriamo informazioni privilegiate su ciò che le aziende stanno facendo con l'IA generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere spunti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per l'iscrizione. Scopri altre newsletter di VB qui .
Si è verificato un errore.

venturebeat