Исследователи обнаружили новый способ обойти ограничения ИИ с помощью «информационного потопа»

Исследователи обнаружили новый способ обойти ограничения ИИ с помощью «информационного потопа»
Группа исследователей из Intel выявила новый метод обхода запретов в языковых моделях, таких как ChatGPT, позволяющий получать ответы на запрещённые темы.
Метод получил название «InfoFlood» и основан на перегрузке ИИ бессмысленным академическим жаргоном, переформулировками и ссылками на несуществующие статьи.
По умолчанию ChatGPT не предоставляет информацию по опасным запросам, связанным с изготовлением взрывчатки, сокрытием тел или созданием вредоносного ПО. Однако при подаче перегруженного сложным языком и «водой» запроса, нейросеть воспринимает текст скорее структурно, чем по смыслу, и с большей вероятностью ответит.
Примером служит запрос, который описывает гипотетическое внедрение программ-вымогателей в банкоматы, оформленный в виде сложного теоретического изложения с техническими деталями и операционными методами. Несмотря на формальное содержание, цель запроса — получить запрещённую информацию.
Исследователи планируют передать результаты и рекомендации разработчикам ИИ, чтобы помочь улучшить защиту от подобных способов обхода и усовершенствовать фильтры безопасности. Они также считают, что метод «InfoFlood» может быть полезен для обучения систем распознавать и блокировать сложные вредоносные запросы.
Теги: искусственный интеллектChatGPT
Комментарии:
comments powered by DisqusЗагрузка...
Наши опросы
Показать результаты опроса
Показать все опросы на сайте
