Выберите язык

Russian

Down Icon

Выберите страну

America

Down Icon

Интерпретируемая книга по ИИ: что исследования Anthric означают для стратегии получения степени магистра права вашего предприятия

Интерпретируемая книга по ИИ: что исследования Anthric означают для стратегии получения степени магистра права вашего предприятия

Присоединяйтесь к мероприятию, которому доверяют руководители предприятий уже почти два десятилетия. VB Transform объединяет людей, которые создают настоящую стратегию искусственного интеллекта для предприятий. Узнать больше

Генеральный директор Anthropic Дарио Амодеи в апреле настоятельно призвал к пониманию того, как мыслят модели ИИ.

Это происходит в решающий момент. Поскольку Anthropic сражается в мировых рейтингах ИИ, важно отметить, что отличает ее от других ведущих лабораторий ИИ. С момента своего основания в 2021 году, когда семь сотрудников OpenAI ушли из- за опасений по поводу безопасности ИИ, Anthropic создала модели ИИ, которые придерживаются набора принципов, ценимых человеком, системы, которую они называют конституционным ИИ . Эти принципы гарантируют, что модели « полезны, честны и безвредны » и в целом действуют в наилучших интересах общества. В то же время исследовательское подразделение Anthropic глубоко погружается, чтобы понять, как его модели думают о мире и почему они выдают полезные (а иногда и вредные) ответы.

Флагманская модель Anthropic, Claude 3.7 Sonnet, доминировала в тестах кодирования, когда она была запущена в феврале, доказав, что модели ИИ могут преуспеть как в производительности, так и в безопасности. А недавний выпуск Claude 4.0 Opus и Sonnet снова выводит Claude на вершину тестов кодирования . Однако на сегодняшнем быстром и гиперконкурентном рынке ИИ конкуренты Anthropic, такие как Gemini 2.5 Pro от Google и o3 от Open AI, имеют свои собственные впечатляющие показатели мастерства кодирования, в то время как они уже доминируют над Claude в математике, творческом письме и общем рассуждении на многих языках.

Если мысли Амодеи являются каким-либо показателем, Anthropic планирует будущее ИИ и его влияние на такие критические области, как медицина, психология и юриспруденция, где безопасность моделей и человеческие ценности являются императивами. И это видно: Anthropic — ведущая лаборатория ИИ, которая сосредоточена исключительно на разработке «интерпретируемого» ИИ, то есть моделей, которые позволяют нам с некоторой степенью уверенности понять, о чем думает модель и как она приходит к определенному выводу.

Amazon и Google уже вложили миллиарды долларов в Anthropic, даже несмотря на то, что они создают свои собственные модели ИИ, так что, возможно, конкурентное преимущество Anthropic еще только зарождается. Интерпретируемые модели, как предполагает Anthropic, могут значительно сократить долгосрочные эксплуатационные расходы, связанные с отладкой, аудитом и снижением рисков при сложных развертываниях ИИ.

Сайаш Капур , исследователь безопасности ИИ, предполагает, что, хотя интерпретируемость ценна, это всего лишь один из многих инструментов управления рисками ИИ. По его мнению, «интерпретируемость не является ни необходимой, ни достаточной» для обеспечения безопасного поведения моделей — она имеет наибольшее значение в сочетании с фильтрами, верификаторами и дизайном, ориентированным на человека. Этот более широкий взгляд рассматривает интерпретируемость как часть более крупной экосистемы стратегий контроля, особенно в реальных развертываниях ИИ, где модели являются компонентами более широких систем принятия решений.

До недавнего времени многие считали, что ИИ еще много лет до таких достижений, которые сейчас помогают Claude, Gemini и ChatGPT похвастаться исключительным принятием на рынке. Хотя эти модели уже раздвигают границы человеческих знаний , их широкое использование объясняется тем, насколько хорошо они решают широкий спектр практических задач, требующих творческого решения или детального анализа. Поскольку модели ставятся перед задачами все более критических проблем, важно, чтобы они давали точные ответы.

Амодей опасается, что когда ИИ отвечает на подсказку, «мы понятия не имеем... почему он выбирает одни слова вместо других или почему он иногда ошибается, хотя обычно он точен». Такие ошибки — галлюцинации неточной информации или ответы, которые не соответствуют человеческим ценностям — будут удерживать модели ИИ от раскрытия своего полного потенциала. Действительно, мы видели много примеров того, как ИИ продолжает бороться с галлюцинациями и неэтичным поведением .

По мнению Амодеи, лучший способ решить эти проблемы — понять, как мыслит ИИ: «Наша неспособность понять внутренние механизмы моделей означает, что мы не можем осмысленно предсказывать такое [вредное] поведение и, следовательно, с трудом исключаем его... Если бы вместо этого можно было заглянуть внутрь моделей, мы могли бы систематически блокировать все джейлбрейки, а также характеризовать, какими опасными знаниями обладают модели».

Амодеи также считает непрозрачность текущих моделей препятствием для развертывания моделей ИИ в «финансовых или критически важных для безопасности ситуациях, поскольку мы не можем полностью установить ограничения на их поведение, а небольшое количество ошибок может быть очень вредным». В принятии решений, которые напрямую влияют на людей, например, при медицинской диагностике или оценке ипотеки, правовые нормы требуют, чтобы ИИ объяснял свои решения.

Представьте себе финансовое учреждение, использующее большую языковую модель (LLM) для обнаружения мошенничества — интерпретируемость может означать объяснение клиенту отказа в выдаче кредита, как того требует закон. Или производственную фирму, оптимизирующую цепочки поставок — понимание того, почему ИИ предлагает определенного поставщика, может раскрыть эффективность и предотвратить непредвиденные узкие места.

По этой причине, объясняет Амодей, «Anthropic делает ставку на интерпретируемость, и у нас есть цель к 2027 году добиться того, чтобы «интерпретируемость могла надежно обнаруживать большинство проблем в моделях».

С этой целью Anthropic недавно приняла участие в инвестициях в размере 50 миллионов долларов в Goodfire , исследовательскую лабораторию ИИ, которая делает прорывной прогресс в области «сканирования мозга» ИИ. Их платформа проверки моделей Ember — это агностический инструмент, который идентифицирует изученные концепции в моделях и позволяет пользователям манипулировать ими. В недавней демонстрации компания показала, как Ember может распознавать отдельные визуальные концепции в ИИ-генераторе изображений, а затем позволять пользователям рисовать эти концепции на холсте для создания новых изображений, которые следуют замыслу пользователя.

Инвестиции Anthropic в Ember намекают на тот факт, что разработка интерпретируемых моделей достаточно сложна, и у Anthropic нет рабочей силы, чтобы самостоятельно добиться интерпретируемости. Творческие интерпретируемые модели требуют новых инструментальных цепочек и опытных разработчиков для их создания

Более широкий контекст: точка зрения исследователя ИИ

Чтобы разбить точку зрения Амодеи и добавить столь необходимый контекст, VentureBeat взял интервью у Капура, исследователя безопасности ИИ в Принстоне. Капур был соавтором книги AI Snake Oil , критического анализа преувеличенных заявлений, окружающих возможности ведущих моделей ИИ. Он также является соавтором книги «ИИ как нормальная технология », в которой он выступает за то, чтобы рассматривать ИИ как стандартный, преобразующий инструмент, такой как интернет или электричество, и продвигает реалистичную точку зрения на его интеграцию в повседневные системы.

Капур не оспаривает, что интерпретируемость ценна. Однако он скептически относится к тому, чтобы рассматривать ее как центральный столп выравнивания ИИ. «Это не серебряная пуля», — сказал Капур VentureBeat. Многие из наиболее эффективных методов безопасности, такие как фильтрация после ответа, вообще не требуют открытия модели, сказал он.

Он также предостерегает от того, что исследователи называют «ошибкой непостижимости» — идеи, что если мы не полностью понимаем внутреннее устройство системы, мы не можем использовать или регулировать ее ответственно. На практике полная прозрачность — это не то, как оценивается большинство технологий. Важно то, надежно ли работает система в реальных условиях.

Это не первый раз, когда Амодеи предупреждает о рисках опережения нашего понимания ИИ. В своемпосте от октября 2024 года «Машины любящей благодати» он набросал видение все более способных моделей, которые могли бы предпринимать осмысленные действия в реальном мире (и, возможно, удвоить продолжительность нашей жизни).

По словам Капура, здесь необходимо провести важное различие между возможностями модели и ее мощностью . Возможности модели, несомненно, быстро растут, и вскоре они могут развить достаточный интеллект, чтобы находить решения для многих сложных проблем, с которыми сталкивается человечество сегодня. Но модель настолько мощна, насколько мощны интерфейсы, которые мы предоставляем ей для взаимодействия с реальным миром, включая то, где и как модели развернуты.

Амодей отдельно утверждал, что США должны сохранять лидерство в разработке ИИ, отчасти за счет экспортного контроля , который ограничивает доступ к мощным моделям. Идея заключается в том, что авторитарные правительства могут безответственно использовать пограничные системы ИИ — или воспользоваться геополитическим и экономическим преимуществом, которое дает их развертывание первыми.

По мнению Капура, «даже самые ярые сторонники экспортного контроля согласны, что это даст нам максимум год или два». Он считает, что мы должны относиться к ИИ как к «обычной технологии », как электричество или интернет. Хотя обе технологии были революционными, потребовались десятилетия, чтобы полностью внедриться в общество. Капур считает, что то же самое касается и ИИ: лучший способ сохранить геополитическое преимущество — сосредоточиться на «долгой игре» по преобразованию отраслей для эффективного использования ИИ.

Капур не единственный, кто критикует позицию Амодеи. На прошлой неделе на VivaTech в Париже генеральный директор Nvidia Янсен Хуан заявил о своем несогласии с взглядами Амодеи. Хуан задался вопросом, должны ли полномочия по разработке ИИ быть ограничены несколькими мощными организациями, такими как Anthropic. Он сказал: «Если вы хотите, чтобы что-то делалось безопасно и ответственно, вы делаете это открыто… Не делайте этого в темной комнате и не говорите мне, что это безопасно».

В ответ Anthropic заявил : «Дарио никогда не утверждал, что «только Anthropic» может создать безопасный и мощный ИИ. Как покажут публичные записи, Дарио выступал за национальный стандарт прозрачности для разработчиков ИИ (включая Anthropic), чтобы общественность и политики знали о возможностях и рисках моделей и могли соответствующим образом подготовиться».

Стоит также отметить, что Anthropic не одинока в своем стремлении к интерпретируемости: команда по интерпретируемости DeepMind компании Google во главе с Нилом Нандой также внесла серьезный вклад в исследование интерпретируемости.

В конечном счете, ведущие лаборатории и исследователи ИИ предоставляют убедительные доказательства того, что интерпретируемость может стать ключевым фактором на конкурентном рынке ИИ. Предприятия, которые отдают приоритет интерпретируемости на раннем этапе, могут получить значительное конкурентное преимущество, создавая более надежные, совместимые и адаптируемые системы ИИ.

Ежедневные аналитические обзоры бизнес-кейсов с VB Daily

Если вы хотите произвести впечатление на своего босса, VB Daily вам поможет. Мы даем вам внутреннюю информацию о том, что компании делают с генеративным ИИ, от изменений в регулировании до практических развертываний, чтобы вы могли поделиться идеями для максимальной окупаемости инвестиций.

Ознакомьтесь с нашей Политикой конфиденциальности

Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .

Произошла ошибка.

venturebeat

venturebeat

Похожие новости

Все новости
Animated ArrowAnimated ArrowAnimated Arrow