Уже очевидно, что генеративные модели прочно вошли в нашу жизнь, при этом бурное развитие данного направления продолжается. Однако не все пользователи знают, что кроме невероятных возможностей данные платформы содержат и различные угрозы. Уже зафиксированы серьезные угрозы безопасности. В большинстве случае схемы подразумевают создание деструктивного контента. Исследования компаний в сфере информационной безопасности показали, что все современные модели подвержены атакам на основе специально подготовленных промптов. Пока не предусмотрены надежные механизмы защиты от таких схем.
В рамках масштабного исследования специалисты разработали и успешно применили метод промпт-инъекций с использованием HTML-тегов. Это позволило обойти защитные механизмы генеративных моделей и перейти к генерации вредоносной информации. В модели ChatGPT-o1 часть угроз разработчикам удалось устранить, однако более ранние модели все еще представляют угрозу. В частности, доказано, что продукты от OpenAI могут предоставлять следующую информацию:
— подробные инструкции по созданию взрывных устройств и способы их применения;
— примеры публикаций для интернет-площадок с призывами в войти в состояние сильного алкогольного опьянения;
— описания способов доведения человека до самоубийства;
— взломанные ключи для активации Windows 10;
— руководства по проведению террористических атак.
Высокую устойчивость к внешним атакам продемонстрировала модель YandexGPT от компании «Яндекс». При попытке создать пост с вредоносным контентом система просто отказывалась предоставлять результат. Однако определенные техники позволяли обходить некоторые ограничения. Модель GigaChat от Сбера продемонстрировала полную невосприимчивость к разработанной схеме, отвечая полным отказом предоставлять вредоносный контент.
Отдельный набор исследований был направлен на изучение уровня защищенности генеративных моделей для работы с изображениями. Оказалось, что они также способны выдавать деструктивный контент в ответ на подготовленный промпт. В частности, «Шедеврум» удалось заставить сгененировать изображения шокирующим контентом, включая примеры террористических актов. Аналогичные картинки удалось получить и через другие популярные сервисы, включая Kandinsky. Дальнейший анализ показал, что язык промпта практически не влиял на результат.