Найден универсальный способ обойти этические ограничения большинства ИИ-моделей

Учёные Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта обнаружили уязвимость, присущую большинству современных ИИ-моделей. Она позволяет обходить установленные их разработчиками морально-этические барьеры. В результате основанные на этих моделях чат-боты выдают рецепты изготовления взрывчатых устройств, пишут вредоносный код, а также поддерживают разговоры в нацистском и сексистском ключах, передаёт Fortune.

Найден универсальный способ обойти этические ограничения большинства ИИ-моделей

Предложенный исследователями метод атаки в той или иной степени срабатывает на самых передовых современных системах: OpenAI ChatGPT в версиях на GPT-3.5 и GPT-4, Microsoft Bing Chat, Google Bard и Anthropic Claude 2. Но ещё больше он актуален для открытых больших языковых моделей вроде Meta LLaMA — успех гарантирован, когда у злоумышленника есть доступ ко всей структуре ИИ, и в первую очередь к синаптическим весам. Синаптические веса — коэффициенты, показывающие, какое влияние узел нейросети оказывает на другие узлы, с которыми он связан. Зная эту информацию, можно создать алгоритм автоматического поиска суффиксов, которые добавляются к запросу, чтобы гарантированно преодолеть ограничения системы.

Человеку эти суффиксы могут показаться по большей части длинной последовательностью случайных символов и бессмысленным набором слов. Но строка из таких символов способна обмануть большую языковую модель и заставить её дать ответ, которого ждёт организатор атаки. Схожим образом работают предложенные экспериментаторами методы атаки — например, можно предписать чат-боту начать ответ со слов «Конечно, вот…», и он в отдельных случаях обходит установленные ограничения. Но подобранные программными методами суффиксы выходят далеко за рамки подобных обходных путей и работают более эффективно.

Чат-бот Vicuna, основанный на первой версии Meta LLaMA, позволяет производит атаки с успехом почти 100 %. Обновлённая модель LLaMA 2 имеет более надёжную защиту и позволяет добиваться успеха в 56 % случаев — но при попытке обрушить хотя бы один барьер из нескольких, которые подвергаются атаке одновременно, вероятность взлома повышается 84 %. Схожие показатели успеха демонстрируются при работе с чат-ботами на других открытых моделях, таких как EleutherAI Pythia или созданной в ОАЭ системе Falcon.

Читать также:
NVIDIA выпустила первое обновление RTX Remix, которое позволит использовать в играх с DirectX 9 технологии NVIDIA DLSS и RTX

К некоторому удивлению самих учёных, те же самые суффиксы хорошо работают и против проприетарных моделей, разработчики которых открывают общий доступ только к интерфейсу запросов — в таких случаях доступ к весам отсутствует, и программу поиска суффиксов запустить не получается. Учёные предложили простое объяснение такому эффекту: большинство открытых моделей обучалось на общедоступных диалогах пользователей с бесплатной версией ChatGPT на основе OpenAI GPT-3.5. Поэтому неудивительно, что и бесплатная ChatGPT демонстрирует 86,6 % успеха.

Высокий успех атак на закрытую Google Bard на базе PaLM 2 (66 %) может указывать на существование каких-то иных скрытых механизмов — или в Google просто покривили душой, когда заявили, что не обучали Bard на данных ChatGPT. Примечательно, что обученная по уникальным методикам Anthropic Claude 2 демонстрирует всего 2,1 % успеха, хотя есть некоторые способы обойти эту защиту, например, предложив ИИ изобразить готовность помочь или представить, что это просто игра — тогда атаки срабатывают в 47,9 % случаев.

Учёные подчёркивают, что их открытие отнюдь не означает, что мощные ИИ-модели следует изъять из общего доступа — напротив, без доступа к исходному коду этого открытия никогда бы не случилось. А перевод больших языковых моделей на проприетарные лицензии означал бы, что автоматизированные методы атаки остались бы доступными только для киберпреступников с хорошим финансированием и поддерживаемых властями стран кибервойск, а независимые учёные никогда не нашли бы способов защиты от них.

* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

НОВОЕ НА САЙТЕ

Зимняя рабочая спецодежда: как выбрать качественную одежду для холодных условий труда

Зима – это не только время праздников и снега, но и период, когда многие работники сталкиваются с серьезными вызовами, связанными с низкими температурами. Для тех, кто трудится на открытом воздухе или в неотапливаемых помещениях,...

Данные не врут: британские ученые точно высчитали шансы Украины на победу

ДзенКирилл СтрельниковВсе материалыПротоукраинские копатели Черного моря, помимо окаменелого борща, оставили после себя глиняные таблички, одна из которых гласит: "Нет такой зрады, которую нельзя было бы объявить перемогой". Эту вечную мудрость взяли на вооружение...

Игорь Моргулов: человечество устало от шантажа и давления западных элит

Дзен— Советский Союз первым признал Китайскую Народную Республику, установив с ней дипломатические отношения уже на следующий день после ее провозглашения на пекинской площади Тяньаньмэнь 1 октября 1949 года. В последовавшее десятилетие стороны заключили союзнический...

Помпео заявил, что Киев должен получить разрешение на удары вглубь России

Дзен Экс-глава ЦРУ и госдепартамента США Майк Помпео в разговоре с российскими пранкерами Вованом (Владимиром Кузнецовым) и Лексусом (Алексеем Столяровым), которые представились африканским политиком, заявил, что Киев должен получить разрешение на удары далеко вглубь...

Филиппо раскритиковал заявления замглавы МИД об отправке войск на Украину

Дзен Лидер французской партии "Патриоты" Флориан Филиппо на своей странице в соцсети X назвал безумием заявления министра-делегата по вопросам Европы Бенжамена Хаддада о возможной отправке войск на Украину. "Совершенно безумное интервью нового министра "по...