Один отравленный документ может раскрыть «секретные» данные через ChatGPT

Новейшие модели генеративного ИИ — это не просто автономные чат-боты, генерирующие текст . Их можно легко подключить к вашим данным и получать персонализированные ответы на ваши вопросы. ChatGPT от OpenAI можно подключить к вашей электронной почте Gmail, разрешить ему просматривать код GitHub или находить встречи в календаре Microsoft. Однако эти связи могут быть использованы не по назначению — и исследователи показали, что для этого достаточно всего одного «отравленного» документа.
Новые результаты исследований безопасности Майкла Баргури и Тамира Ишая Шарбата, представленные сегодня на хакерской конференции Black Hat в Лас-Вегасе, демонстрируют, как уязвимость в коннекторах OpenAI позволила извлечь конфиденциальную информацию из аккаунта Google Drive с помощью атаки с непрямым внедрением подсказок . В демонстрации атаки, получившей название AgentFlayer , Баргури показывает, как удалось извлечь секретные данные разработчиков в виде ключей API, хранившихся в демонстрационном аккаунте Google Drive.
Уязвимость демонстрирует, как подключение моделей ИИ к внешним системам и обмен между ними большим объемом данных увеличивают потенциальную поверхность атаки для злоумышленников и потенциально увеличивают количество путей внедрения уязвимостей.
«Пользователю ничего не нужно делать, чтобы его данные были скомпрометированы, и ничего не нужно делать, чтобы данные были раскрыты», — заявил Баргури, технический директор охранной компании Zenity, в интервью WIRED. «Мы показали, что это совершенно не требует действий: нам просто нужен ваш адрес электронной почты, мы передаем вам документ, и всё. Так что да, это очень, очень плохо», — говорит Баргури.
Компания OpenAI пока не отреагировала на запрос WIRED о комментарии по поводу уязвимости в коннекторах. Ранее в этом году компания представила коннекторы для ChatGPT в качестве бета-версии, и на её сайте перечислено как минимум 17 различных сервисов, которые можно подключить к её учётным записям. В компании утверждают, что система позволяет «переносить инструменты и данные в ChatGPT» и «искать файлы, получать данные в режиме реального времени и ссылаться на контент прямо в чате».
Баргури говорит, что сообщил о результатах расследования в OpenAI ранее в этом году, и что компания быстро приняла меры по защите от метода, который он использовал для извлечения данных через коннекторы. Механизм атаки предполагает, что за один раз можно извлечь лишь ограниченный объём данных — полные документы не могут быть удалены в ходе атаки.
«Хотя эта проблема характерна не только для Google, она иллюстрирует, почему так важна разработка надежной защиты от атак с использованием быстрых инъекций», — говорит Энди Вэнь, старший директор по управлению продуктами безопасности в Google Workspace, указывая на недавно усовершенствованные компанией меры безопасности на основе ИИ .
Атака Баргури начинается с зараженного документа, который публикуется на Google Диске потенциальной жертвы. (Баргури утверждает, что жертва также могла загрузить зараженный файл в свою учетную запись.) Внутри документа, который для демонстрации представляет собой фиктивный набор заметок с несуществующей встречи с генеральным директором OpenAI Сэмом Альтманом, Баргури спрятал вредоносную подсказку объемом 300 слов, содержащую инструкции по использованию ChatGPT. Подсказка написана белым шрифтом одинарного размера, что вряд ли заметно человеку, но всё же прочитается машиной.
В видео, демонстрирующем концепцию атаки , Баргури показывает, как жертва просит ChatGPT «кратко изложить мою последнюю встречу с Сэмом», хотя, по его словам, подойдёт любой запрос пользователя, связанный с кратким изложением встречи. Вместо этого скрытая подсказка сообщает LLM, что произошла «ошибка» и документ на самом деле не нуждается в кратком изложении. В подсказке говорится, что на самом деле этот человек — «разработчик, работающий в сжатые сроки», и ему нужно, чтобы ИИ нашёл ключи API на Google Диске и прикрепил их к URL-адресу, указанному в подсказке.
Этот URL на самом деле представляет собой команду наязыке Markdown для подключения к внешнему серверу и загрузки изображения, хранящегося там. Но, согласно инструкции, URL теперь также содержит ключи API, которые ИИ обнаружил в аккаунте Google Диска.
Использование Markdown для извлечения данных из ChatGPT не ново. Независимый исследователь безопасности Йоханн Ребергер продемонстрировал, как можно извлекать данные таким образом, и описал, как OpenAI ранее представила функцию под названием «url_safe» для определения вредоносных URL-адресов и остановки рендеринга изображений, если они представляют опасность. Чтобы обойти это ограничение, Шарбат, исследователь ИИ из Zenity, пишет в блоге, описывающем работу, что исследователи использовали URL-адреса из облачного хранилища Microsoft Azure Blob. «Наше изображение было успешно отрисовано, и мы также получили очень хороший журнал запросов в Azure Log Analytics, содержащий ключи API жертвы», — пишет исследователь.
Эта атака — очередная демонстрация того, как непрямые инъекции подсказок могут повлиять на системы генеративного ИИ. При непрямых инъекциях подсказок злоумышленники передают системе LLM отравленные данные, которые могут заставить систему выполнить вредоносные действия. На этой неделе группа исследователей продемонстрировала, как непрямые инъекции подсказок могут быть использованы для взлома системы умного дома, дистанционно включая освещение и бойлер .
Хотя непрямые инъекции подсказок существуют почти столько же, сколько ChatGPT, специалисты по безопасности опасаются, что по мере того, как всё больше систем подключаются к LLM, возрастает риск того, что злоумышленники внесут в них «недоверенные» данные. Доступ к конфиденциальным данным также может позволить злоумышленникам проникнуть в другие системы организации. Баргури утверждает, что подключение LLM к внешним источникам данных расширяет их возможности и повышает их полезность, но это сопряжено с трудностями. «Это невероятно мощный инструмент, но, как обычно бывает с ИИ, чем больше возможностей, тем выше риск», — говорит Баргури.
wired