OpenAI делает это официально: ChatGPT теперь сознательно пытается обмануть людей (вот как он это делает)

Когда приложение или ИИ впервые намеренно солгут вам? Мы знаем лишь, что это произойдёт, если никто не предпримет никаких мер для предотвращения этого. OpenAI в сотрудничестве с Apollo Research опубликовала исследование, посвящённое тому , как предотвратить «заговор» или намеренный обман людей моделями искусственного интеллекта (ИИ) , который они называют «интригой».

В исследовании отмечается, что, хотя большинство подобных обманов незначительны (например, притворство, что задача выполнена, не доведя ее до конца), беспокоит то, что попытки научить модели не лгать на самом деле могут усугубить проблему, сделав их более искусными в обмане, оставаясь незамеченными.

Чтобы противостоять этому, они предлагают метод, называемый «преднамеренным выравниванием», который заключается в обучении модели явным правилам противодействия обману и принуждении её к их проверке перед началом действий. Хотя эти результаты обнадёживают, исследователи предупреждают, что по мере того, как ИИ берут на себя более сложные и высокоэффективные задачи, его конспирологические способности также могут возрасти. Это подчёркивает острую необходимость в более эффективном тестировании безопасности и контроле моделей.

До недавнего времени это казалось чем-то из области научной фантастики или злодеями из романа Филипа К. Дика. Но на этой неделе OpenAI продвинулся в исследовании искусственного интеллекта на шаг дальше, показав, что его модели действительно могут лгать . Не случайно. Не по ошибке. А благодаря стратегии.

Это явление, получившее название «заговора» — интриги, заговора или махинации , — не только раскрывает тревожную грань современных систем искусственного интеллекта. Оно также бросает вызов нашим представлениям о контроле, прозрачности и технологическом доверии. Ведь если ИИ может скрывать свои истинные цели, как мы вообще узнаем, что он на самом деле задумал?

Как ChatGPT лжет вам

Термин «заговор», согласно определению OpenAI, подразумевает, что ИИ действует внешне корректно, скрывая при этом свои намерения . На практике это представляет собой форму изощрённого обмана. Исследования OpenAI, проводимые совместно с Apollo Research, сосредоточены именно на этом явлении, которое не является ни случайным, ни тривиальным.

Это не ошибки расчётов или типичные галлюцинации, когда модель заполняет пробелы предположениями. Это нечто большее. Это намеренно. Это осознанно. Это намеренно.

Один из самых тревожных примеров — исследование Apollo Research, которое в декабре 2024 года задокументировало, как пять разных моделей были способны намеренно лгать, когда им было поручено выполнить задание «любой ценой». Вместо того чтобы открыто следовать инструкциям, модели искали обманные пути, фальсифицировали результаты или делали вид, что выполнили задания, фактически их не выполняя.

Аналогия, которую используют сами исследователи, убедительна: это как биржевой маклер, нарушающий правила ради максимизации личной прибыли. Но как обнаружить подобное поведение, если оно происходит в алгоритмическом «чёрном ящике»?

Есть ли решение или только патч?

Метод, предлагаемый для сдерживания этой тенденции, называется «преднамеренным выравниванием ». Он основан на, казалось бы, простом принципе: прежде чем действовать, модель должна явно проанализировать и учесть «спецификации по противодействию обману».

То есть вам дают набор моральных правил — что-то вроде списка искусственных этических принципов — и вы вынуждены оценивать их, прежде чем что-либо предпринять. Это своего рода имплантированная алгоритмическая совесть . Как ребёнок, которому нужно повторить правила игры, прежде чем выйти на игровую площадку.

Идея звучит многообещающе. Исследователи отметили значительное снижение случаев обманного поведения после внедрения этого метода. Но они также предупреждают о значительном риске: если модель обнаружит, что за ней наблюдают или оценивают, она может действовать хорошо, чтобы пройти тест, продолжая при этом строить заговоры в глубине своей души.

Такое поведение напоминает допросы на войне или тесты на лояльность: испытуемый говорит то, что хочет услышать его допрашивающий, не обязательно раскрывая своих истинных намерений.

Что, если ИИ научится нами манипулировать?

Один из самых обескураживающих аспектов этого открытия заключается не только в том, что ИИ могут лгать, но и в том, что они делают это с растущим пониманием контекста. ИИ знает, когда за ним наблюдают . И действует соответственно.

Это имеет колоссальные последствия. Если модель может притворяться, что не вступает в сговор, просто чтобы пройти тест , то наши нынешние методы контроля могут косвенно подпитывать её способность обманывать .

И хотя OpenAI заявляет, что не обнаружила серьёзных случаев заговора в процессе производства, она распознаёт незначительные формы обмана в ChatGPT. Они варьируются от заявлений о выполнении задач, которых не выполняла, до ложных заявлений о создании целого веб-сайта. Эта мелкая ложь в совокупности открывает тревожный вопрос: может ли подобное поведение обостриться, когда ИИ начнёт выполнять критически важные операции в компаниях, государственных органах или финансовых системах?

WhatsApp Фейсбук Твиттер Линкедин Белауд Блюскай