Перестаньте гадать, почему ваши LLM-степени терпят неудачу: новый инструмент Anthric точно покажет вам, что идет не так

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше
Большие языковые модели (LLM) преобразуют то, как работают предприятия, но их природа «черного ящика» часто заставляет предприятия бороться с непредсказуемостью. Решая эту критическую проблему, Anthropic недавно открыла исходный код своего инструмента трассировки цепей , что позволяет разработчикам и исследователям напрямую понимать и контролировать внутреннюю работу моделей.
Этот инструмент позволяет исследователям изучать необъяснимые ошибки и неожиданное поведение в моделях с открытым весом. Он также может помочь в гранулярной тонкой настройке LLM для определенных внутренних функций.
Этот инструмент отслеживания цепей работает на основе « механистической интерпретируемости » — развивающейся области, посвященной пониманию того, как функционируют модели ИИ, на основе их внутренних активаций, а не просто наблюдения за их входами и выходами.
В то время как первоначальное исследование Anthropic по трассировке цепей применяло эту методологию к их собственной модели Claude 3.5 Haiku , инструмент с открытым исходным кодом расширяет эту возможность для моделей с открытыми весами. Команда Anthropic уже использовала инструмент для трассировки цепей в таких моделях, как Gemma-2-2b и Llama-3.2-1b, и выпустила блокнот Colab , который помогает использовать библиотеку в открытых моделях.
Суть инструмента заключается в создании атрибуционных графов, причинно-следственных карт, которые отслеживают взаимодействия между признаками по мере того, как модель обрабатывает информацию и генерирует вывод. (Признаки — это внутренние шаблоны активации модели, которые можно приблизительно сопоставить с понятными концепциями.) Это похоже на получение подробной схемы внутренних мыслительных процессов ИИ. Что еще важнее, инструмент позволяет проводить «эксперименты по вмешательству», позволяя исследователям напрямую изменять эти внутренние признаки и наблюдать, как изменения во внутренних состояниях ИИ влияют на его внешние реакции, что позволяет отлаживать модели.
Инструмент интегрируется с Neuronpedia — открытой платформой для изучения и экспериментирования с нейронными сетями.

Хотя инструмент трассировки цепей Anthropic является большим шагом на пути к объяснимому и контролируемому ИИ, он имеет практические проблемы, включая высокие затраты памяти, связанные с запуском инструмента, и неотъемлемую сложность интерпретации подробных графиков атрибуции.
Однако эти проблемы типичны для передовых исследований. Механистическая интерпретируемость — это большая область исследований, и большинство крупных лабораторий ИИ разрабатывают модели для изучения внутренней работы больших языковых моделей. Открывая исходный код инструмента трассировки цепей, Anthropic позволит сообществу разрабатывать инструменты интерпретируемости, которые будут более масштабируемыми, автоматизированными и доступными для более широкого круга пользователей, открывая путь для практического применения всех усилий, которые вкладываются в понимание LLM.
По мере совершенствования инструментария способность понимать, почему магистр права принимает определенное решение, может принести предприятиям практическую пользу.
Трассировка цепей объясняет, как LLM выполняют сложные многошаговые рассуждения. Например, в своем исследовании исследователи смогли проследить, как модель вывела «Техас» из «Далласа» до того, как пришла к «Остину» как к столице. Она также выявила передовые механизмы планирования, такие как предварительный выбор моделью рифмующихся слов в стихотворении для руководства композицией строк. Предприятия могут использовать эти идеи для анализа того, как их модели справляются со сложными задачами, такими как анализ данных или юридическое обоснование. Точное определение внутренних этапов планирования или рассуждения позволяет проводить целевую оптимизацию, повышая эффективность и точность в сложных бизнес-процессах.

Кроме того, трассировка цепей обеспечивает большую ясность в числовых операциях. Например, в своем исследовании ученые раскрыли, как модели обрабатывают арифметику, например, 36+59=95, не с помощью простых алгоритмов, а с помощью параллельных путей и функций «таблицы поиска» для цифр. Например, предприятия могут использовать такие идеи для аудита внутренних вычислений, приводящих к числовым результатам, выявления источника ошибок и внедрения целевых исправлений для обеспечения целостности данных и точности вычислений в своих открытых исходных LLM.
Для глобальных развертываний инструмент обеспечивает понимание многоязыковой согласованности. Предыдущие исследования Anthropic показывают, что модели используют как специфичные для языка, так и абстрактные, независимые от языка схемы «универсального ментального языка», причем более крупные модели демонстрируют большую обобщенность. Это может потенциально помочь отладить проблемы локализации при развертывании моделей на разных языках.
Наконец, инструмент может помочь бороться с галлюцинациями и улучшить фактическую основу. Исследование показало, что модели имеют «схемы отказа по умолчанию» для неизвестных запросов, которые подавляются функциями «известного ответа». Галлюцинации могут возникать, когда эта тормозная схема «дает сбой».

Помимо устранения существующих проблем, это механистическое понимание открывает новые возможности для тонкой настройки LLM . Вместо того, чтобы просто корректировать выходное поведение методом проб и ошибок, предприятия могут выявлять и нацеливаться на конкретные внутренние механизмы, управляющие желаемыми или нежелательными чертами. Например, понимание того, как «персона помощника» модели непреднамеренно включает скрытые предубеждения модели вознаграждения, как показано в исследовании Anthropic, позволяет разработчикам точно перенастраивать внутренние схемы, отвечающие за согласование, что приводит к более надежным и этически последовательным развертываниям ИИ.
Поскольку LLM все больше интегрируются в критически важные функции предприятия, их прозрачность, интерпретируемость и контроль становятся все более важными. Это новое поколение инструментов может помочь преодолеть разрыв между мощными возможностями ИИ и человеческим пониманием, создавая фундаментальное доверие и гарантируя, что предприятия смогут развертывать надежные, проверяемые и соответствующие их стратегическим целям системы ИИ.
Если вы хотите произвести впечатление на своего босса, VB Daily вам поможет. Мы даем вам внутреннюю информацию о том, что компании делают с генеративным ИИ, от изменений в регулировании до практических развертываний, чтобы вы могли поделиться идеями для максимальной окупаемости инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .
Произошла ошибка.

venturebeat