Новая архитектура ИИ обеспечивает в 100 раз более быстрые рассуждения, чем у LLM, всего с 1000 обучающими примерами

Хотите получать более полезную информацию? Подпишитесь на наши еженедельные рассылки, чтобы получать только то, что важно для руководителей в сфере корпоративного ИИ, данных и безопасности. Подпишитесь сейчас
Сингапурский стартап Sapient Intelligence разработал новую архитектуру искусственного интеллекта, которая может сравниться с большими языковыми моделями (LLM), а в некоторых случаях и значительно превзойти их в решении сложных задач рассуждения, при этом будучи значительно меньше и более эффективно используя данные.
Архитектура, известная как Иерархическая модель рассуждений (HRM), вдохновлена тем, как человеческий мозг использует различные системы для медленного, осознанного планирования и быстрых, интуитивных вычислений. Модель достигает впечатляющих результатов, используя лишь малую часть данных и памяти, необходимых современным магистрам права. Такая эффективность может иметь важные последствия для реальных корпоративных приложений ИИ, где данные ограничены, а вычислительные ресурсы ограничены.
Столкнувшись со сложной проблемой, современные магистры права в основном полагаются на подсказки в виде цепочки мыслей (CoT), разбивая проблемы на промежуточные текстовые шаги, по сути заставляя модель «думать вслух» в процессе поиска решения.
Хотя CoT улучшила способность к рассуждению у студентов магистратуры права, у неё есть фундаментальные ограничения. В своей статье исследователи из Sapient Intelligence утверждают, что «CoT для рассуждений — это лишь подпорка, а не удовлетворительное решение. Он опирается на хрупкие, определяемые человеком декомпозиции, где один неверный шаг или неправильный порядок шагов могут полностью свести на нет процесс рассуждения».
Серия мероприятий AI Impact возвращается в Сан-Франциско — 5 августа
Новая фаза развития ИИ уже наступила — вы готовы? Присоединяйтесь к лидерам Block, GSK и SAP, чтобы узнать, как автономные агенты меняют рабочие процессы предприятий — от принятия решений в режиме реального времени до сквозной автоматизации.
Забронируйте свое место сейчас — количество мест ограничено: https://bit.ly/3GuuPLF
Эта зависимость от генерации явного языка привязывает рассуждения модели к уровню токенов, что часто требует огромных объёмов обучающих данных и приводит к длительным и медленным ответам. Этот подход также упускает из виду тип «скрытых рассуждений», которые происходят внутри модели, не будучи явно выражены в языке.
Как отмечают исследователи, «необходим более эффективный подход для минимизации этих требований к данным».
Чтобы выйти за рамки CoT, исследователи исследовали «латентное рассуждение», где вместо генерации «маркеров мышления» модель рассуждает, исходя из своего внутреннего, абстрактного представления проблемы. Это больше соответствует человеческому мышлению; как утверждается в статье, «мозг с поразительной эффективностью поддерживает длинные, связные цепочки рассуждений в латентном пространстве, без постоянного перевода обратно на язык».
Однако достижение такого уровня глубины внутренних рассуждений в ИИ — непростая задача. Простое добавление большего количества слоёв в модель глубокого обучения часто приводит к проблеме «исчезающего градиента», когда обучающие сигналы ослабевают между слоями, что делает обучение неэффективным. Альтернативные рекуррентные архитектуры, использующие циклы для вычислений, могут страдать от «ранней сходимости», когда модель слишком быстро находит решение, не исследуя проблему в полной мере.

В поисках лучшего подхода команда Sapient обратилась к нейробиологии. «Человеческий мозг предоставляет убедительную схему для достижения эффективной вычислительной глубины, которой не хватает современным искусственным моделям», — пишут исследователи. «Он иерархически организует вычисления в различных областях коры головного мозга, работающих в разных временных масштабах, что обеспечивает глубокие многоэтапные рассуждения».
Вдохновленные этим, они разработали HRM с двумя связанными, рекуррентными модулями: высокоуровневым (H) модулем для медленного, абстрактного планирования и низкоуровневым (L) модулем для быстрых, подробных вычислений. Эта структура делает возможным процесс, который команда называет «иерархической сходимостью». Интуитивно понятно, что быстрый L-модуль решает часть проблемы, выполняя несколько шагов, пока не достигнет устойчивого, локального решения. В этот момент медленный H-модуль принимает этот результат, обновляет свою общую стратегию и дает L-модулю новую, уточненную подзадачу для работы. Это фактически сбрасывает L-модуль, предотвращая его зависание (раннюю сходимость) и позволяя всей системе выполнять длинную последовательность шагов рассуждения с бережливой архитектурой модели, которая не страдает от исчезающих градиентов.

Согласно статье, «этот процесс позволяет HRM выполнять последовательность отдельных, стабильных, вложенных вычислений, где H-модуль направляет общую стратегию решения проблем, а L-модуль выполняет интенсивный поиск или уточнение, необходимые для каждого шага». Такая конструкция вложенного цикла позволяет модели глубоко рассуждать в её скрытом пространстве, не требуя длинных подсказок CoT или огромных объёмов данных.
Возникает естественный вопрос: не наносит ли эта «скрытая логика» ущерб интерпретируемости? Гуань Ван, основатель и генеральный директор Sapient Intelligence, опровергает эту идею, объясняя, что внутренние процессы модели можно расшифровать и визуализировать, подобно тому, как CoT даёт представление о мышлении модели. Он также отмечает, что сама CoT может вводить в заблуждение. «CoT не отражает внутренние рассуждения модели по-настоящему», — сказал Ван VentureBeat, ссылаясь на исследования, показывающие, что модели иногда могут давать правильные ответы с неверными этапами рассуждения , и наоборот. «По сути, она остаётся чёрным ящиком».

Чтобы протестировать свою модель, исследователи сравнили HRM с эталонными тестами, требующими обширного поиска и возврата, такими как Корпус абстракции и рассуждения (ARC-AGI), чрезвычайно сложные головоломки судоку и запутанные задачи на прохождение лабиринтов.
Результаты показывают, что HRM обучается решать задачи, непосильные даже для продвинутых LLM. Например, в тестах «Sudoku-Extreme» и «Maze-Hard» современные модели CoT полностью провалили тесты, показав точность 0%. В то же время, HRM достигла практически идеальной точности после обучения всего на 1000 примерах для каждой задачи.
В тесте ARC-AGI, тесте на абстрактное мышление и обобщение, модель HRM с 27 млн параметров набрала 40,3%. Это превосходит ведущие модели на основе CoT, такие как гораздо более крупные o3-mini-high (34,5%) и Claude 3.7 Sonnet (21,2%). Этот результат, достигнутый без большого корпуса предобучения и с очень ограниченным набором данных, демонстрирует мощь и эффективность её архитектуры.

Хотя решение головоломок демонстрирует мощь модели, её применение в реальном мире связано с другим классом задач. По словам Вана, разработчикам следует продолжать использовать программы магистратуры правового управления (LLM) для решения языковых или творческих задач, но для «сложных или детерминированных задач» архитектура, подобная HRM, обеспечивает превосходную производительность и меньшее количество галлюцинаций. Он указывает на «последовательные задачи, требующие сложного принятия решений или долгосрочного планирования», особенно в областях, чувствительных к задержкам, таких как искусственный интеллект и робототехника, или в областях с дефицитом данных, таких как научные исследования.
В таких ситуациях HRM не просто решает проблемы, он учится решать их лучше. «В наших экспериментах с судоку на уровне мастера… HRM требуется всё меньше шагов по мере обучения — подобно тому, как новичок становится экспертом», — пояснил Ван.
Для предприятия именно здесь эффективность архитектуры напрямую влияет на конечный результат. Вместо последовательной генерации токенов CoT, параллельная обработка HRM, по оценкам Вана, позволяет достичь «100-кратного ускорения выполнения задач». Это означает меньшую задержку вывода и возможность выполнять мощные рассуждения на периферийных устройствах.
Экономия средств также существенна. «Специализированные системы рассуждений, такие как HRM, предлагают более перспективную альтернативу для решения конкретных сложных задач по сравнению с громоздкими, дорогостоящими и длительными моделями на основе API», — сказал Ван. Для наглядности он отметил, что обучение модели для профессионального судоку занимает примерно два часа работы GPU, а для сложного бенчмарка ARC-AGI — от 50 до 200 часов работы GPU — лишь малая часть ресурсов, необходимых для масштабных базовых моделей. Это открывает путь к решению специализированных бизнес-задач, от оптимизации логистики до диагностики сложных систем, где как данные, так и бюджет ограничены.
Заглядывая в будущее, Sapient Intelligence уже работает над тем, чтобы превратить HRM из специализированного инструмента решения проблем в более универсальный модуль рассуждений. «Мы активно разрабатываем модели, вдохновлённые работой мозга, основанные на HRM», — сказал Ван, отметив многообещающие первые результаты в здравоохранении, прогнозировании климата и робототехнике. Он намекнул, что эти модели следующего поколения будут существенно отличаться от современных текстовых систем, в частности, благодаря наличию функций самокоррекции.
В работе предполагается, что для класса проблем, которые ставят в тупик сегодняшних гигантов искусственного интеллекта, путь вперед может заключаться не в более крупных моделях, а в более интеллектуальных, более структурированных архитектурах, вдохновленных высшим механизмом рассуждения: человеческим мозгом.
Если вы хотите произвести впечатление на своего руководителя, VB Daily поможет вам. Мы расскажем вам всё изнутри о том, что компании делают с генеративным ИИ, от изменений в законодательстве до практического внедрения, чтобы вы могли поделиться своими идеями и получить максимальную отдачу от инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Больше новостей VB можно найти здесь .
Произошла ошибка.

venturebeat