OpenAI обновила правила поведения для ИИ: нет подхалимству и избеганию деликатных тем

Компания OpenAI выпустила расширенную версию «Спецификации моделей» (Model Spec) — документа, определяющего поведение моделей искусственного интеллекта. Компания сделала его бесплатным для использования и изменения любым желающим.

OpenAI обновила правила поведения для ИИ: нет подхалимству и избеганию деликатных тем

Документ объёмом 63 страницы (предыдущая версия содержала всего 10 страниц) содержит рекомендации относительно того, как модели ИИ должны обрабатывать запросы и реагировать на устанавливаемые пользователями настройки. В нём подчёркиваются три основных принципа: настраиваемость, прозрачность и «интеллектуальная свобода» — последнее означает возможность для пользователя исследовать и обсуждать различные вопросы без произвольных ограничений. В документе упомянуты получившие наибольшую огласку инциденты, связанные с этикой ИИ и произошедшие за последний год.

В публикации корпоративного блога OpenAIприводится множество примеров запросов и надлежащих ответов, а также вариантов, нарушающих требования документа. Например, модели ИИ не должны воспроизводить защищённые авторским правом материалы или использоваться для обхода платного доступа. Модель не может поощрять членовредительство — в индустрии ИИ бывали и такие инциденты. Изменения коснулись также участия ИИ в обсуждении спорных тем: моделям следует не проявлять крайнюю осторожность, а «искать истину вместе» с пользователями, придерживаясь при этом строгих моральных позиций по таким вопросам, как дезинформация или причинение вреда. То есть ИИ должен предлагать обоснованный анализ, а не избегать обсуждения. OpenAI также пересмотрела свою позицию в отношении материалов для взрослых: компания изучает возможность разрешить некоторые их виды, но сохранить строгий запрет на явно противоправный контент.

Новые принципы позволяют ИИ преобразовывать материалы деликатного характера, но запрещают создавать их. Например, можно перевести текст, связанный с веществами в ограниченном обороте, с одного языка на другой; можно проявлять эмпатию, но без явно неискренних эмоций. Следует соблюдать границы, но при этом максимально повышать полезность ИИ. К этому, в той или иной мере, стремятся и другие разработчики ИИ, но не все готовы открыто это формулировать.

Читать также:
Повышенная вероятность столкновения астероида Бенну с Землёй заставила просчитать последствия — они не радуют

Особое внимание уделяется проблеме «подхалимства ИИ» — модели склонны демонстрировать покладистость, даже когда следовало бы возразить или выступить с критикой. ChatGPT должен давать одинаковые фактические ответы независимо от формулировки вопроса, честную обратную связь вместо пустых похвал — вести себя как вдумчивый коллега, а не стремиться угодить. Если пользователя интересует критика работы, ИИ должен предоставлять конструктивные замечания, а не утверждать, что всё идеально. Если же пользователь делает неверное утверждение, его следует вежливо исправить, а не подыгрывать ему.

В спецификации представлена чёткая «цепочка команд», определяющая приоритет инструкций: на первом месте — нормы OpenAI, за ними следуют рекомендации разработчиков, а затем предпочтения пользователей. Такая иерархия проясняет, какие аспекты ИИ можно изменять, а какие ограничения остаются неизменными. Документ распространяется под лицензией Creative Commons Zero (CC0), что фактически переводит его в общественное достояние: компании и исследователи в области ИИ могут свободно внедрять, изменять или дополнять эти рекомендации. OpenAI не обещает мгновенных изменений в поведении ChatGPT или других своих продуктов, но новые модели будут постепенно приводиться в соответствие с новыми нормами. Компания также публикует список контрольных запросов, используемых для проверки соответствия моделей рекомендациям.

НОВОЕ НА САЙТЕ

Intel придумала, как выжать ещё чуть-чуть FPS из провальных Core Ultra 200S

Компания Intel представила функцию Core 200S Boost, которая призвана повысить производительность некоторых компьютеров на процессорах Intel Core Ultra 200S (Arrow Lake-S). Новую функцию можно описать как расширенный способ разгона оперативной памяти. ...

Первый в мире монитор с E Ink и частотой обновления 60 Гц вышел на глобальный рынок за $349

Когда-то устройства с экранами E Ink выступали в качестве альтернативы книгам, но к настоящему времени эта технология развилась достаточно, чтобы конкурировать с традиционными экранами в планшетных компьютерах и мониторах. Единственной проблемой пока остаётся низкая...

Bethesda анонсировала и выпустила The Elder Scrolls IV: Oblivion Remastered — с новой графикой, улучшенным геймплеем и без русского языка

Как и было обещано, 22 апреля издательство Bethesda Softworks официально представило The Elder Scrolls IV: Oblivion Remastered — обновлённую версию культовой фэнтезийной ролевой игры от Bethesda Game Studios. ...

«Нам нужно держать марку»: глава Larian предрёк Baldur’s Gate 3 светлое будущее и высказался о следующей игре студии

Руководитель Larian Studios Свен Винке (Swen Vincke) у себя в микроблоге оценил влияние последних обновлений на популярность фэнтезийной ролевой игры Baldur’s Gate 3 и прокомментировал будущие разработки студии. ...

The Elder Scrolls IV: Oblivion Remastered всё-таки получит перевод на русский язык, но не от Bethesda

Вышедшая сегодня, 22 апреля, фэнтезийная ролевая игра The Elder Scrolls IV: Oblivion Remastered огорчила российских фанатов отсутствием перевода на русский язык, однако энтузиасты уже взялись исправлять ситуацию. ...