Любая информационная система должна обеспечивать необходимый уровень защиты от внешних атак. Взлом может привести к серьезным последствиям – похищение персональных данных, нарушение работоспособности инфраструктуры и так далее. Аналогичные требования предъявляются и современным ИИ-моделям, поскольку они часто тесно интегрированы в программную среду различных компаний.
Основные векторы атак
В большинстве случаев такие атаки подразумевают нарушение штатной работы нейросети. Часто это осуществляется на этапе подготовки данных или обучения. Выделяют две основные схемы атак:
Whitebox-атака. Используется, если атакующая сторона заранее знает особенности модели, архитектуру, особенности работы модели. К примеру, если есть возможность изучить программный код и получить физический доступ к серверу.
Blackbox-атаки организовать гораздо сложнее. В этом случае нет информации о внутреннем устройстве модели. Есть только возможность анализировать общий функционал, а само подключение осуществляется через штатный API-интерфейс.
В первую очередь стараются эксплуатировать незначительные возмущения во входных данных. Такие отклонения могут не выявляться автоматизированными системами, на работу пользователей они также практически не влияют. Главная задача таких изменений – заставить ИИ выдавать некорректный результат. К примеру, в изображение предварительно добавляются возмущения, которые нарушают работу нейросети, в результате она неправильно распознает элементы на фотографии.
Выделяют целый класс задач под общим названием «отравление данных». Цель также совпадает – получение повышенных привилегий при работе с моделью. Изменения минимальны, поэтому их сложно определить при помощи эксперта. Даже вспомогательные модули, изначально ориентированные на отслеживание таких ошибок, также часто не справляются с поставленной задачей.
При правильной организации такие атаки могут быть достаточно опасны, есть возможность использовать их в составе масштабных атак не целевую инфраструктуру конкретной компании. Если есть возможность предварительно получить доступ к модели, можно интегрировать вредоносные модули, которые будут запущены уже внутри системы. Практика показывает, что используемая среда выполнения не всегда способна корректно детектировать такую активность.
Следующая популярная схема – атака для кражи функциональности. Преимущественно они направлены на open source сервисы, которые предлагают доступ по API. Предварительно создаются подготовленные дочерние модели (или объединенная сеть таких агентов), которые используют набор запросов для исследования ответов модели. Главная задача – скопировать функционал, чтобы клонировать возможности и сократить расходы на разработку собственных решений. При достаточном количестве запросов появляется возможность получить общий алгоритм работы для запуска аналогичного сервиса. Несмотря на кажущуюся сложность, проблема является актуальной, поскольку в данном направлении конкуренция достаточно высокая. При запуске новой языковой модели появляется возможность монетизировать и дальше развивать проект.
В отдельную категорию выделять атаки, направленные на определение исходных данных. В частности, можно попытаться сформировать запрос таким образом, чтобы извлечь часть массива, который использовался при обучении. Есть вероятность, что нейросеть предоставит ложные данные, однако реализация такого сценария вполне реальна. В частности, демонстрацию такой возможности еще в 2021 году представила группа специалистов из разных компаний. Использовался промпт со специальным префиксом, который действительно позволил извлечь необходимые данные, использовалась популярная на тот момент модель GPT-2. Также было обосновано, что такая атака может быть частью крупной кампании для дискредитации инфраструктуры организации.
Слабые места
Упрощенно говоря, атаки сводятся к трем основным рискам для компании:
— масштабные проблемы с авторскими правами;
— репутационные потери;
— утечка критически важных данных.
Потеря репутации может быть обусловлена некорректной работой модели после внесения изменений. Есть определенные чувствительные вопросы, которые по умолчанию должны игнорироваться ИИ. Самый простой пример – генерация картинок, которые затрагивают дискриминацию по расовому признаку. Таких моментов достаточно много, многие из них явно нарушают местное законодательство и неизбежно приведут к негодованию со стороны пользователей. Вполне реален сценарий, когда появление такого контента используется для понижения акций компании для дальнейшей скупки.
Еще одна важная проблема – мошенничество с использованием поддельного голоса. Реализовать технически это несложно, поскольку ИИ достаточно образца голоса (короткой записи), чтобы имитировать произношение и начитать произвольный текст. Компании, которые специализируются на интернет-безопасности фиксируют сотни случаев, когда злоумышленники пытаются при помощи дипфейков подать заявку на кредит.
Атаки, направленные на кражу функциональности, достаточно активно обсуждаются в профессиональном сообществе. Самый громкий случай – попытка обвинить в этом китайскую компанию DeepSeek. Напомним, им удалось при минимальном финансировании и за короткий срок разработать собственную языковую модель, которая успешно конкурирует с сервисами от других компаний. Ранее специалисты OpenAI заявили, что у них есть доказательства использования метода дистилляции в процессе разработки DeepSeek.
Под дистилляцией понимают достаточно сложный метод оптимизации модели машинного обучения, который позволяет передать знания из исходной модели (учитель) в компактную (ученик). Это позволяет сохранить качество работы, при этом снизив требования к вычислительной мощности аппаратной части.
Стоит отметить, что упомянутые доказательства так и не были представлены официально. Никто пока не выдвинул обвинения и не подтвердил факт копирования данных. Также специалисты активно обсуждают, как именно классифицировать такие действия, тут не все так однозначно. С одной стороны, они явно нарушают условия предоставления услуг OpenAI, но при этом нет возможности применить текущую редакцию закона о защите интеллектуальной собственности.
Пока сложно предсказать, как дальше будет развиваться текущее противостояние в сфере языковых моделей. Однако метод дистилляции пока остается самым эффективным способом обучения суррогатных моделей.
Методы защиты
Инструменты защиты могут встраиваться в модели при помощи двух схем: на уровне обучения или уже на этапе развертывания конечного продукта. Часто практикуются методы обучения с добавлением примеров атак. Это позволяет научить модель эффективно распознавать такие атаки и самостоятельно противодействовать им. Прилагаются усилия для повышения устойчивости к изменению входных данных. К примеру, в модель могут добавляться ограничения, чтобы она не переобучалась на исходных примерах и корректно обрабатывала данные, с которыми ранее не сталкивалась.
Когда нейросеть уже обучена и введена в эксплуатацию, в качестве инструмента защиты часто используются специальные маркеры. Они могут добавляться непосредственно в модель или в набор данных для обучения. Главное требование – обеспечение устойчивости добавленных элементов к искажению. Заранее определяется порог, до которого можно изменять маркеры, чтобы система работала корректно.
Значительная часть публичных датасетов уже содержат в себе изменения, некоторые из них добавлены намеренно. Чтобы исключить вероятность атаки необходимо тщательно проверять информацию перед стартом обучения. Процесс проверки принято называть санацией данных, она может проводиться при помощи специализированного ПО или вручную.
Ранее обеспечением устойчивости моделей занимались преимущественно собственные подразделения компаний, которые разрабатывают модели. При этом сценарии атак публиковались в формате научных исследований, рассматривалась только сама возможность реализации. В настоящее время популярность набирает другой подход – компании, которые занимаются разработкой защитного ПО заранее разрабатывают и интегрируют в свою продукцию готовые модули. Специалисты стараются охватить все основные векторы атаки, включая сценарии, которые пока только имеют формат теоретических публикаций.
Начали появляться компании, которые специализируются на проверке устойчивости датасетов к внешнему воздействию. Можно заказать полноценное стресс-тестирование модели, которое позволит оценить уровень защищенности к различным атакам.