El nuevo agente de inteligencia artificial de difusión de Google imita la escritura humana para mejorar la investigación empresarial

¿Quieres recibir información más inteligente en tu bandeja de entrada? Suscríbete a nuestros boletines semanales para recibir solo lo que importa a los líderes empresariales en IA, datos y seguridad. Suscríbete ahora.
Los investigadores de Google han desarrollado un nuevo marco para agentes de investigación de IA que supera a los principales sistemas de sus rivales OpenAI, Perplexity y otros en puntos de referencia clave.
El nuevo agente, llamado Test-Time Diffusion Deep Researcher (TTD-DR), está inspirado en la forma en que los humanos escriben, pasando por un proceso de borrador, búsqueda de información y haciendo revisiones iterativas.
El sistema utiliza mecanismos de difusión y algoritmos evolutivos para producir investigaciones más completas y precisas sobre temas complejos.
Para las empresas, este marco podría impulsar una nueva generación de asistentes de investigación personalizados para tareas de alto valor con las que los sistemas de generación aumentada de recuperación (RAG) estándar tienen dificultades, como generar un análisis competitivo o un informe de ingreso al mercado.
La escalabilidad de la IA alcanza sus límites
Los límites de potencia, el aumento de los costos de los tokens y los retrasos en la inferencia están transformando la IA empresarial. Únase a nuestro exclusivo salón para descubrir cómo los mejores equipos:
- Convertir la energía en una ventaja estratégica
- Arquitectura de inferencia eficiente para obtener ganancias de rendimiento reales
- Cómo desbloquear el ROI competitivo con sistemas de IA sostenibles
Reserva tu lugar para estar a la vanguardia : https://bit.ly/4mwGngO
Según los autores del artículo, estos casos de uso empresarial del mundo real eran el objetivo principal del sistema.
Los agentes de investigación profunda (DR) están diseñados para abordar consultas complejas que van más allá de una simple búsqueda. Utilizan grandes modelos de lenguaje (LLM) para planificar, emplean herramientas como la búsqueda web para recopilar información y, posteriormente, sintetizan los hallazgos en un informe detallado mediante técnicas de escalamiento en tiempo de prueba , como la cadena de pensamiento (CoT), el muestreo del mejor de N y la búsqueda de árbol de Montecarlo.
Sin embargo, muchos de estos sistemas presentan limitaciones fundamentales de diseño. La mayoría de los agentes de recuperación ante desastres disponibles públicamente aplican algoritmos y herramientas de prueba sin una estructura que refleje el comportamiento cognitivo humano. Los agentes de código abierto suelen seguir un proceso rígido, lineal o paralelo, de planificación, búsqueda y generación de contenido, lo que dificulta la interacción y la corrección entre las distintas fases de la investigación.

Esto puede provocar que el agente pierda el contexto global de la investigación y pierda conexiones críticas entre diferentes piezas de información.
Como señalan los autores del artículo, “Esto indica una limitación fundamental en el trabajo actual sobre agentes de DR y resalta la necesidad de un marco más cohesivo y específico para los agentes de DR que imite o supere las capacidades de investigación humana”.
A diferencia del proceso lineal de la mayoría de los agentes de IA, los investigadores humanos trabajan de forma iterativa . Suelen empezar con un plan general, crear un borrador inicial y luego participar en múltiples ciclos de revisión . Durante estas revisiones, buscan nueva información para reforzar sus argumentos y subsanar deficiencias.
Los investigadores de Google observaron que este proceso humano podía emularse mediante el mecanismo de un modelo de difusión ampliado con un componente de recuperación. (Los modelos de difusión se utilizan a menudo en la generación de imágenes. Comienzan con una imagen ruidosa y la refinan gradualmente hasta convertirla en una imagen detallada).
Como explican los investigadores: “En esta analogía, un modelo de difusión entrenado genera inicialmente un borrador ruidoso, y el módulo de eliminación de ruido, con la ayuda de herramientas de recuperación, revisa este borrador para obtener resultados de mayor calidad (o mayor resolución)”.
TTD-DR se basa en este modelo. El marco considera la creación de un informe de investigación como un proceso de difusión, donde un borrador inicial, confuso, se perfecciona progresivamente hasta llegar a un informe final pulido.

Esto se logra mediante dos mecanismos principales. El primero, que los investigadores denominan "Denoising with Retrieval" (Denoising con Recuperación), parte de un borrador preliminar y lo mejora iterativamente. En cada paso, el agente utiliza el borrador actual para formular nuevas consultas de búsqueda, recupera información externa y la integra para "denoising" el informe corrigiendo imprecisiones y añadiendo detalles.
El segundo mecanismo, la "Autoevolución", garantiza que cada componente del agente (el planificador, el generador de preguntas y el sintetizador de respuestas) optimice su propio rendimiento de forma independiente. En declaraciones a VentureBeat, Rujun Han, investigador de Google y coautor del artículo, explicó que esta evolución a nivel de componente es crucial, ya que aumenta la eficacia de la eliminación de ruido en los informes. Esto se asemeja a un proceso evolutivo en el que cada parte del sistema mejora progresivamente en su tarea específica, proporcionando un contexto de mayor calidad para el proceso principal de revisión.

“La intrincada interacción y la combinación sinérgica de estos dos algoritmos son cruciales para lograr resultados de investigación de alta calidad”, afirman los autores. Este proceso iterativo genera informes que no solo son más precisos, sino también más coherentes desde el punto de vista lógico. Como señala Han, dado que el modelo se evaluó en función de su utilidad, que incluye fluidez y coherencia, las mejoras en el rendimiento son una medida directa de su capacidad para producir documentos empresariales bien estructurados.
Según el documento, el compañero de investigación resultante es “capaz de generar informes útiles y completos para preguntas de investigación complejas en diversos dominios industriales, incluidos finanzas, biomedicina, recreación y tecnología”, lo que lo coloca en la misma clase que los productos de investigación profunda de OpenAI, Perplexity y Grok.
Para construir y probar su marco, los investigadores utilizaron el Agent Development Kit (ADK) de Google, una plataforma extensible para orquestar flujos de trabajo de IA complejos, con Gemini 2.5 Pro como LLM principal (aunque se puede intercambiar por otros modelos).
Compararon TTD-DR con los principales sistemas comerciales y de código abierto, incluidos OpenAI Deep Research , Perplexity Deep Research, Grok DeepSearch y el GPT-Researcher de código abierto.
La evaluación se centró en dos áreas principales. Para generar informes completos y extensos, utilizaron el benchmark DeepConsult , una colección de preguntas relacionadas con negocios y consultoría, junto con su propio conjunto de datos LongForm Research. Para responder preguntas de múltiples saltos que requieren una búsqueda y un razonamiento exhaustivos, probaron el agente con benchmarks académicos y del mundo real, como el Último Examen de la Humanidad (HLE) y GAIA .
Los resultados mostraron que TTD-DR superó consistentemente a sus competidores. En comparaciones directas con OpenAI Deep Research en la generación de informes extensos, TTD-DR logró tasas de éxito del 69,1 % y el 74,5 % en dos conjuntos de datos diferentes. También superó al sistema de OpenAI en tres pruebas de referencia independientes que requerían razonamiento multisalto para encontrar respuestas concisas, con mejoras de rendimiento del 4,8 %, el 7,7 % y el 1,7 %.

Si bien la investigación actual se centra en informes de texto mediante búsqueda web, el marco está diseñado para ser altamente adaptable. Han confirmó que el equipo planea ampliar el trabajo para incorporar más herramientas para tareas empresariales complejas.
Se podría utilizar un proceso similar de “difusión en tiempo de prueba” para generar un código de software complejo , crear un modelo financiero detallado o diseñar una campaña de marketing de varias etapas , donde un “borrador” inicial del proyecto se perfecciona iterativamente con nueva información y retroalimentación de varias herramientas especializadas.
“Todas estas herramientas se pueden incorporar de forma natural en nuestro marco”, afirmó Han, sugiriendo que este enfoque centrado en el borrador podría convertirse en una arquitectura fundamental para una amplia gama de agentes de IA complejos y de múltiples pasos.
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat