La nueva arquitectura de IA ofrece un razonamiento 100 veces más rápido que los LLM con solo 1000 ejemplos de entrenamiento

¿Quieres recibir información más inteligente en tu bandeja de entrada? Suscríbete a nuestros boletines semanales para recibir solo lo que importa a los líderes empresariales en IA, datos y seguridad. Suscríbete ahora.
Sapient Intelligence, una empresa emergente de inteligencia artificial con sede en Singapur, ha desarrollado una nueva arquitectura de inteligencia artificial que puede igualar, y en algunos casos superar ampliamente, a los modelos de lenguaje grandes (LLM) en tareas de razonamiento complejas, al mismo tiempo que es significativamente más pequeña y más eficiente en el uso de datos.
La arquitectura, conocida como Modelo de Razonamiento Jerárquico (MRH), se inspira en cómo el cerebro humano utiliza distintos sistemas para una planificación lenta y deliberada, así como para un cálculo rápido e intuitivo. El modelo logra resultados impresionantes con una fracción de los datos y la memoria que requieren los LLM actuales. Esta eficiencia podría tener importantes implicaciones para las aplicaciones de IA empresarial del mundo real, donde los datos son escasos y los recursos computacionales limitados.
Cuando se enfrentan a un problema complejo, los LLM actuales se basan en gran medida en indicaciones de cadena de pensamiento (CoT), desglosando los problemas en pasos intermedios basados en texto, lo que básicamente obliga al modelo a "pensar en voz alta" mientras trabaja para encontrar una solución.
Si bien CoT ha mejorado la capacidad de razonamiento de los LLM, presenta limitaciones fundamentales. En su artículo , investigadores de Sapient Intelligence argumentan que «CoT para el razonamiento es una muleta, no una solución satisfactoria. Se basa en descomposiciones frágiles, definidas por el ser humano, donde un solo paso en falso o un desorden en los pasos puede descarrilar por completo el proceso de razonamiento».
La serie AI Impact regresa a San Francisco - 5 de agosto
La siguiente fase de la IA ya está aquí: ¿estás listo? Únete a los líderes de Block, GSK y SAP para descubrir en exclusiva cómo los agentes autónomos están transformando los flujos de trabajo empresariales, desde la toma de decisiones en tiempo real hasta la automatización integral.
Reserva tu lugar ahora - el espacio es limitado: https://bit.ly/3GuuPLF
Esta dependencia de la generación de lenguaje explícito limita el razonamiento del modelo al nivel de token, lo que a menudo requiere cantidades masivas de datos de entrenamiento y produce respuestas largas y lentas. Este enfoque también ignora el tipo de "razonamiento latente" que ocurre internamente, sin estar articulado explícitamente en el lenguaje.
Como señalan los investigadores, “se necesita un enfoque más eficiente para minimizar estos requisitos de datos”.
Para ir más allá de la CoT, los investigadores exploraron el "razonamiento latente", donde, en lugar de generar "muestras de pensamiento", el modelo razona en su representación interna y abstracta del problema. Esto se alinea más con el pensamiento humano; como afirma el artículo, "el cerebro mantiene largas y coherentes cadenas de razonamiento con notable eficiencia en un espacio latente, sin una traducción constante al lenguaje".
Sin embargo, lograr este nivel de razonamiento interno profundo en IA es un desafío. Simplemente acumular más capas en un modelo de aprendizaje profundo a menudo conduce a un problema de "gradiente de desaparición", donde las señales de aprendizaje se debilitan entre capas, lo que hace que el entrenamiento sea ineficaz. Una arquitectura alternativa recurrente que repite los cálculos puede sufrir una "convergencia temprana", donde el modelo encuentra una solución demasiado rápido sin explorar completamente el problema.

En busca de un enfoque más eficaz, el equipo de Sapient recurrió a la neurociencia para encontrar una solución. «El cerebro humano proporciona un modelo convincente para lograr la profundidad computacional efectiva de la que carecen los modelos artificiales contemporáneos», escriben los investigadores. «Organiza la computación jerárquicamente en regiones corticales que operan en diferentes escalas de tiempo, lo que permite un razonamiento profundo y multietapa».
Inspirados por esto, diseñaron HRM con dos módulos recurrentes acoplados: un módulo de alto nivel (H) para la planificación lenta y abstracta, y un módulo de bajo nivel (L) para cálculos rápidos y detallados. Esta estructura posibilita un proceso que el equipo denomina "convergencia jerárquica". Intuitivamente, el módulo L rápido aborda una parte del problema, ejecutando múltiples pasos hasta alcanzar una solución local estable. En ese punto, el módulo H lento toma este resultado, actualiza su estrategia general y le asigna al módulo L un nuevo subproblema refinado en el que trabajar. Esto reinicia eficazmente el módulo L, evitando que se bloquee (convergencia temprana) y permitiendo que todo el sistema realice una larga secuencia de pasos de razonamiento con una arquitectura de modelo eficiente que no sufre de gradientes de desaparición.

Según el artículo, «Este proceso permite al HRM realizar una secuencia de cálculos distintos, estables y anidados, donde el módulo H dirige la estrategia general de resolución de problemas y el módulo L ejecuta la búsqueda intensiva o el refinamiento requerido para cada paso». Este diseño de bucle anidado permite al modelo razonar profundamente en su espacio latente sin necesidad de largas indicaciones de CoT ni grandes cantidades de datos.
Una pregunta natural es si este "razonamiento latente" se produce a costa de la interpretabilidad. Guan Wang, fundador y director ejecutivo de Sapient Intelligence, rebate esta idea, explicando que los procesos internos del modelo pueden decodificarse y visualizarse, de forma similar a cómo CoT ofrece una ventana al pensamiento de un modelo. También señala que CoT en sí mismo puede ser engañoso. "CoT no refleja realmente el razonamiento interno de un modelo", declaró Wang a VentureBeat, haciendo referencia a estudios que demuestran que los modelos a veces pueden generar respuestas correctas con pasos de razonamiento incorrectos , y viceversa. "Sigue siendo, en esencia, una caja negra".

Para probar su modelo, los investigadores compararon HRM con parámetros de referencia que requieren una búsqueda y un retroceso exhaustivos, como el Corpus de Abstracción y Razonamiento (ARC-AGI), rompecabezas de Sudoku extremadamente difíciles y tareas complejas de resolución de laberintos.
Los resultados muestran que HRM aprende a resolver problemas insolubles incluso para estudiantes de maestría en derecho (LLM) avanzados. Por ejemplo, en las pruebas de referencia "Sudoku-Extreme" y "Maze-Hard", los modelos CoT de vanguardia fallaron por completo, con una precisión del 0 %. En cambio, HRM logró una precisión casi perfecta tras entrenarse con tan solo 1000 ejemplos para cada tarea.
En el benchmark ARC-AGI, una prueba de razonamiento abstracto y generalización, el HRM de 27M parámetros obtuvo una puntuación del 40,3 %. Esto supera a los principales modelos basados en CoT, como el mucho más grande o3-mini-high (34,5 %) y Claude 3.7 Sonnet (21,2 %). Este rendimiento, logrado sin un gran corpus de preentrenamiento y con datos muy limitados, pone de manifiesto la potencia y la eficiencia de su arquitectura.

Si bien la resolución de problemas demuestra la potencia del modelo, las implicaciones reales residen en una clase diferente de problemas. Según Wang, los desarrolladores deberían seguir utilizando LLM para tareas basadas en lenguaje o creativas, pero para tareas complejas o deterministas, una arquitectura similar a HRM ofrece un rendimiento superior con menos alucinaciones. Señala los problemas secuenciales que requieren una toma de decisiones compleja o planificación a largo plazo, especialmente en campos sensibles a la latencia, como la IA y la robótica, o en dominios con escasez de datos, como la exploración científica.
En estos escenarios, HRM no solo resuelve problemas, sino que aprende a resolverlos mejor. «En nuestros experimentos de Sudoku a nivel de maestría, HRM necesita cada vez menos pasos a medida que avanza el entrenamiento, como si un novato se convirtiera en experto», explicó Wang.
Para la empresa, aquí es donde la eficiencia de la arquitectura se traduce directamente en los resultados. En lugar de la generación serializada de CoT, token a token, el procesamiento paralelo de HRM permite, según estimaciones de Wang, una aceleración de 100 veces en el tiempo de finalización de tareas. Esto se traduce en una menor latencia de inferencia y la capacidad de ejecutar razonamientos potentes en dispositivos edge.
El ahorro de costes también es sustancial. «Los motores de razonamiento especializados como HRM ofrecen una alternativa más prometedora para tareas de razonamiento complejas y específicas, en comparación con los modelos basados en API, grandes, costosos y con alta latencia», afirmó Wang. Para poner la eficiencia en perspectiva, señaló que entrenar el modelo para Sudoku de nivel profesional requiere aproximadamente dos horas de GPU, y para el complejo benchmark ARC-AGI, entre 50 y 200 horas de GPU, una fracción de los recursos necesarios para modelos básicos masivos. Esto abre la puerta a la solución de problemas empresariales especializados, desde la optimización logística hasta el diagnóstico complejo de sistemas, donde tanto los datos como el presupuesto son limitados.
De cara al futuro, Sapient Intelligence ya está trabajando para que HRM pase de ser un solucionador de problemas especializado a un módulo de razonamiento de propósito general. «Estamos desarrollando activamente modelos inspirados en el cerebro basados en HRM», afirmó Wang, destacando los prometedores resultados iniciales en atención médica, pronóstico climático y robótica. Adelantó que estos modelos de próxima generación se diferenciarán significativamente de los sistemas actuales basados en texto, en particular por la incorporación de funciones de autocorrección.
El trabajo sugiere que, para una clase de problemas que han dejado perplejos a los gigantes de la IA actuales, el camino a seguir puede no ser modelos más grandes, sino arquitecturas más inteligentes y estructuradas inspiradas en el motor de razonamiento definitivo: el cerebro humano.
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat