Il nuovo agente di intelligenza artificiale di Google imita la scrittura umana per migliorare la ricerca aziendale

Vuoi ricevere informazioni più intelligenti nella tua casella di posta? Iscriviti alle nostre newsletter settimanali per ricevere solo ciò che conta per i leader aziendali in materia di intelligenza artificiale, dati e sicurezza. Iscriviti ora
I ricercatori di Google hanno sviluppato un nuovo framework per gli agenti di ricerca di intelligenza artificiale che supera i sistemi leader dei rivali OpenAI, Perplexity e altri nei benchmark chiave.
Il nuovo agente, denominato Test-Time Diffusion Deep Researcher (TTD-DR), si ispira al modo in cui gli esseri umani scrivono, attraverso un processo di stesura, ricerca di informazioni e revisioni iterative.
Il sistema utilizza meccanismi di diffusione e algoritmi evolutivi per produrre ricerche più complete e accurate su argomenti complessi.
Per le aziende, questo framework potrebbe alimentare una nuova generazione di assistenti di ricerca personalizzati per attività di alto valore che i sistemi RAG ( Trieval Augmented Generation ) standard hanno difficoltà a gestire, come la generazione di un'analisi competitiva o di un report di ingresso nel mercato.
La scalabilità dell'intelligenza artificiale raggiunge i suoi limiti
Limiti di potenza, aumento dei costi dei token e ritardi nelle inferenze stanno rimodellando l'intelligenza artificiale aziendale. Partecipa al nostro esclusivo salone per scoprire come i migliori team stanno:
- Trasformare l'energia in un vantaggio strategico
- Progettazione di inferenze efficienti per reali guadagni di produttività
- Sbloccare il ROI competitivo con sistemi di intelligenza artificiale sostenibili
Assicurati il tuo posto per rimanere in vantaggio : https://bit.ly/4mwGngO
Secondo gli autori del documento, questi casi d'uso aziendali reali erano l'obiettivo primario del sistema.
Gli agenti di Deep Research (DR) sono progettati per gestire query complesse che vanno oltre una semplice ricerca. Utilizzano modelli linguistici di grandi dimensioni (LLM) per pianificare, utilizzano strumenti come la ricerca web per raccogliere informazioni e quindi sintetizzano i risultati in un report dettagliato con l'ausilio di tecniche di scaling in fase di test come la catena di pensiero (CoT), il campionamento best-of-N e la ricerca ad albero di Monte Carlo.
Tuttavia, molti di questi sistemi presentano limiti progettuali fondamentali. La maggior parte degli agenti di DR disponibili al pubblico applica algoritmi e strumenti in fase di test senza una struttura che rispecchi il comportamento cognitivo umano. Gli agenti open source spesso seguono un rigido processo lineare o parallelo di pianificazione, ricerca e generazione di contenuti, rendendo difficile l'interazione e la correzione reciproca tra le diverse fasi della ricerca.

Ciò può far sì che l'agente perda il contesto globale della ricerca e non coglie connessioni critiche tra diverse informazioni.
Come sottolineano gli autori dell'articolo, "Ciò indica una limitazione fondamentale nell'attuale lavoro sugli agenti DR e sottolinea la necessità di un quadro più coeso e mirato per gli agenti DR che imiti o superi le capacità di ricerca umana".
A differenza del processo lineare della maggior parte degli agenti di intelligenza artificiale, i ricercatori umani lavorano in modo iterativo . In genere iniziano con un piano di alto livello, creano una bozza iniziale e poi intraprendono più cicli di revisione . Durante queste revisioni, cercano nuove informazioni per rafforzare le loro argomentazioni e colmare le lacune.
I ricercatori di Google hanno osservato che questo processo umano poteva essere emulato con il meccanismo di un modello di diffusione potenziato da una componente di recupero. (I modelli di diffusione sono spesso utilizzati nella generazione di immagini. Iniziano con un'immagine rumorosa e la perfezionano gradualmente fino a ottenere un'immagine dettagliata.)
Come spiegano i ricercatori, "In questa analogia, un modello di diffusione addestrato genera inizialmente una bozza rumorosa e il modulo di denoising, con l'ausilio di strumenti di recupero, rivede questa bozza in output di qualità superiore (o con risoluzione più elevata)".
Il TTD-DR si basa su questo modello. Il framework tratta la creazione di un rapporto di ricerca come un processo di diffusione, in cui una bozza iniziale "rumorosa" viene progressivamente perfezionata fino a diventare un rapporto finale rifinito.

Ciò si ottiene attraverso due meccanismi principali. Il primo, che i ricercatori chiamano "Denoising with Retrieval", parte da una bozza preliminare e la migliora iterativamente. In ogni fase, l'agente utilizza la bozza corrente per formulare nuove query di ricerca, recupera informazioni esterne e le integra per "ridurre il rumore" del report, correggendo le inesattezze e aggiungendo dettagli.
Il secondo meccanismo, "Auto-Evoluzione", garantisce che ogni componente dell'agente (il pianificatore, il generatore di domande e il sintetizzatore di risposte) ottimizzi in modo indipendente le proprie prestazioni. In un commento a VentureBeat, Rujun Han, ricercatore presso Google e coautore dell'articolo, ha spiegato che questa evoluzione a livello di componente è cruciale perché rende "la riduzione del rumore nei report più efficace". Questo è simile a un processo evolutivo in cui ogni parte del sistema migliora progressivamente nel suo compito specifico, fornendo un contesto di qualità superiore per il processo di revisione principale.

"L'intricata interazione e la combinazione sinergica di questi due algoritmi sono cruciali per ottenere risultati di ricerca di alta qualità", affermano gli autori. Questo processo iterativo si traduce direttamente in report non solo più accurati, ma anche più logicamente coerenti. Come osserva Han, poiché il modello è stato valutato in base all'utilità, che include fluidità e coerenza, i miglioramenti in termini di prestazioni sono una misura diretta della sua capacità di produrre documenti aziendali ben strutturati.
Secondo il documento, il complemento di ricerca risultante è "in grado di generare report utili e completi per complesse questioni di ricerca in diversi settori industriali, tra cui finanza, biomedicina, ricreazione e tecnologia", collocandolo allo stesso livello dei prodotti di ricerca approfondita di OpenAI, Perplexity e Grok.
Per creare e testare il loro framework, i ricercatori hanno utilizzato l'Agent Development Kit (ADK) di Google, una piattaforma estensibile per orchestrare flussi di lavoro di intelligenza artificiale complessi, con Gemini 2.5 Pro come LLM principale (anche se è possibile sostituirlo con altri modelli).
Hanno confrontato TTD-DR con i principali sistemi commerciali e open source, tra cui OpenAI Deep Research , Perplexity Deep Research, Grok DeepSearch e GPT-Researcher open source.
La valutazione si è concentrata su due aree principali. Per generare report completi e di lunga durata, hanno utilizzato il benchmark DeepConsult , una raccolta di prompt relativi al business e alla consulenza, insieme al loro dataset LongForm Research. Per rispondere a domande multi-hop che richiedono ricerche e ragionamenti approfonditi, hanno testato l'agente su benchmark accademici e reali impegnativi come Humanity's Last Exam (HLE) e GAIA .
I risultati hanno mostrato che TTD-DR ha costantemente superato i suoi concorrenti. Nei confronti affiancati con OpenAI Deep Research sulla generazione di report di lunga durata, TTD-DR ha ottenuto percentuali di successo del 69,1% e del 74,5% su due diversi set di dati. Ha inoltre superato il sistema di OpenAI in tre benchmark distinti che richiedevano un ragionamento multi-hop per trovare risposte concise, con miglioramenti delle prestazioni del 4,8%, 7,7% e 1,7%.

Sebbene la ricerca attuale si concentri su report testuali basati sulla ricerca web, il framework è progettato per essere altamente adattabile. Han ha confermato che il team prevede di estendere il lavoro per incorporare più strumenti per attività aziendali complesse.
Un simile processo di “diffusione in fase di test” potrebbe essere utilizzato per generare codice software complesso , creare un modello finanziario dettagliato o progettare una campagna di marketing in più fasi , in cui una “bozza” iniziale del progetto viene perfezionata iterativamente con nuove informazioni e feedback da vari strumenti specializzati.
"Tutti questi strumenti possono essere incorporati naturalmente nel nostro framework", ha affermato Han, suggerendo che questo approccio incentrato sulle bozze potrebbe diventare un'architettura fondamentale per un'ampia gamma di agenti di intelligenza artificiale complessi e multifase.
Se vuoi fare colpo sul tuo capo, VB Daily ha la soluzione che fa per te. Ti forniamo informazioni privilegiate su ciò che le aziende stanno facendo con l'intelligenza artificiale generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere approfondimenti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per esserti iscritto. Scopri altre newsletter di VB qui .
Si è verificato un errore.

venturebeat