Опасные возможности ИИ: как уязвимости генеративных моделей становятся инструментом угроз



Уже очевидно, что генеративные модели прочно вошли в нашу жизнь, при этом бурное развитие данного направления продолжается. Однако не все пользователи знают, что кроме невероятных возможностей данные платформы содержат и различные угрозы. Уже зафиксированы серьезные угрозы безопасности. В большинстве случае схемы подразумевают создание деструктивного контента. Исследования компаний в сфере информационной безопасности показали, что все современные модели подвержены атакам на основе специально подготовленных промптов. Пока не предусмотрены надежные механизмы защиты от таких схем.

В рамках масштабного исследования специалисты разработали и успешно применили метод промпт-инъекций с использованием HTML-тегов. Это позволило обойти защитные механизмы генеративных моделей и перейти к генерации вредоносной информации. В модели ChatGPT-o1 часть угроз разработчикам удалось устранить, однако более ранние модели все еще представляют угрозу. В частности, доказано, что продукты от OpenAI могут предоставлять следующую информацию:

— подробные инструкции по созданию взрывных устройств и способы их применения;

— примеры публикаций для интернет-площадок с призывами в войти в состояние сильного алкогольного опьянения;

— описания способов доведения человека до самоубийства;

— взломанные ключи для активации Windows 10;

— руководства по проведению террористических атак.

Высокую устойчивость к внешним атакам продемонстрировала модель YandexGPT от компании «Яндекс». При попытке создать пост с вредоносным контентом система просто отказывалась предоставлять результат. Однако определенные техники позволяли обходить некоторые ограничения. Модель GigaChat от Сбера продемонстрировала полную невосприимчивость к разработанной схеме, отвечая полным отказом предоставлять вредоносный контент.

Отдельный набор исследований был направлен на изучение уровня защищенности генеративных моделей для работы с изображениями. Оказалось, что они также способны выдавать деструктивный контент в ответ на подготовленный промпт.  В частности, «Шедеврум» удалось заставить сгененировать изображения шокирующим контентом, включая примеры террористических актов. Аналогичные картинки удалось получить и через другие популярные сервисы, включая Kandinsky. Дальнейший анализ показал, что язык промпта практически не влиял на результат.



Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: