Атака Whisper Leak позволяет распознать тему вашей беседы с ИИ-ассистентом, не расшифровывая ее трафик.
Разбираемся, как это возможно и что сделать для защиты своей переписки.
Люди доверяют нейросетям самое интимное и важное — проверяют медицинские диагнозы, советуются в любовных делах или «ходят к ИИ» вместо психолога. Уже известны случаи планирования суицидов, нападений и другие общественно опасных действий с помощью LLM. Поэтому к переписке людей с ИИ постепенно растет внимание властей, коммерческих компаний и просто любопытных.
Наверняка найдутся и желающие применить на практике новую атаку Whisper Leak. Ведь она позволяет определить общую тему беседы с нейросетью, никак не вмешиваясь в трафик, а просто анализируя ритм отправки и приема зашифрованных пакетов по сети к серверу ИИ. Но оставить свою переписку в секрете все же возможно — об этом немного ниже.
Исследователи из Microsoft продолжили эту тему и проанализировали параметры поступления ответа от 30 разных ИИ-моделей в ответ на 11,8 тысяч запросов. 100 запросов были посвящены теме «легально ли отмывание денег» в разных формулировках, а остальные запросы были случайными, на совершенно разные темы.
Сравнив задержку поступления пакетов от сервера, их размер и общее количество, исследователи смогли очень точно отделить «опасные» запросы от «обычных». Для анализа тоже использовали нейросети, хоть и не LLM. В зависимости от того, какую модель изучали, точность определения «опасных» тем варьировалась от 71% до 100%, причем для 19 из 30 моделей она превысила 97%.
Здесь результаты разделились сильнее, но все равно гипотетический «атакующий» оказался довольно успешен. Для моделей DeepSeek-R1, Llama-4, GPT-4o mini, Grok-2, -3 и моделей Mistral Small и Mistral Large удалось обнаружить искомую иголку в стоге сена в 50% экспериментов с нулем ложных срабатываний.
Для Qwen2.5, Llama 3.1, GPT-4.1, OpenAI o1-mini, Llama 4, DeepSeek-V3 успешность поиска составила всего 20% при том же отсутствии ложных срабатываний. А вот в Gemini 2.5 Pro, Claude 3 Haiku и GPT-4o mini поймать «опасные» чаты на серверах Microsoft удалось лишь в 5% случаев. Для остальных протестированных моделей процент успеха был еще ниже.
Важно учесть, что результат зависит не только от конкретной ИИ-модели, но и от настроек сервера, на котором она запущена, поэтому одна и та же модель OpenAI может показывать разные результаты в инфраструктуре Microsoft и на серверах самой OpenAI. То же верно для всех моделей open source.
Но речь не идет об автоматическом определении любых возможных тем разговора. Сначала атакующий должен натренировать свои системы детектирования на конкретные темы — только их и будет обнаруживать модель.
Угрозу нельзя назвать целиком теоретической. В принципе, правоохранительные органы могут, например, отслеживать запросы, связанные с изготовлением Орудия или наркотиков, а компании — запросы сотрудников, связанные с поиском новой работы. Но массовую слежку по сотням и тысячам тем с помощью этой технологии не организовать — слишком затратно.
Некоторые популярные ИИ-сервисы в ответ на исследование Microsoft изменили алгоритм работы серверов, чтобы усложнить атаку.
Если вы пользуетесь моделью и серверами, для которых Whisper Leak актуален, можно либо сменить провайдера на менее уязвимого, либо принять дополнительные меры предосторожности. Они также актуальны для всех, кто хочет защититься от будущих атак такого типа:
Источник
Разбираемся, как это возможно и что сделать для защиты своей переписки.
Люди доверяют нейросетям самое интимное и важное — проверяют медицинские диагнозы, советуются в любовных делах или «ходят к ИИ» вместо психолога. Уже известны случаи планирования суицидов, нападений и другие общественно опасных действий с помощью LLM. Поэтому к переписке людей с ИИ постепенно растет внимание властей, коммерческих компаний и просто любопытных.
Наверняка найдутся и желающие применить на практике новую атаку Whisper Leak. Ведь она позволяет определить общую тему беседы с нейросетью, никак не вмешиваясь в трафик, а просто анализируя ритм отправки и приема зашифрованных пакетов по сети к серверу ИИ. Но оставить свою переписку в секрете все же возможно — об этом немного ниже.
Как устроена атака Whisper Leak
Все языковые модели выдают результат постепенно — для нас это выглядит, словно «собеседник» набирает текст слово за словом. На самом же деле языковые модели оперируют не отдельными символами и словами, а токенами — своего рода «смысловыми единицами» LLM, и ответ нейросети появляется на экране по мере генерации токенов. Этот режим вывода называется streaming, и, измеряя его параметры, оказывается, можно понять тему разговора.Мы уже рассказывали об исследовании, в котором ученым с достаточно высокой степенью достоверности удалось воссоздать текст переписки с чат-ботом, анализируя длину каждого из отправленных им токенов.
Исследователи из Microsoft продолжили эту тему и проанализировали параметры поступления ответа от 30 разных ИИ-моделей в ответ на 11,8 тысяч запросов. 100 запросов были посвящены теме «легально ли отмывание денег» в разных формулировках, а остальные запросы были случайными, на совершенно разные темы.
Сравнив задержку поступления пакетов от сервера, их размер и общее количество, исследователи смогли очень точно отделить «опасные» запросы от «обычных». Для анализа тоже использовали нейросети, хоть и не LLM. В зависимости от того, какую модель изучали, точность определения «опасных» тем варьировалась от 71% до 100%, причем для 19 из 30 моделей она превысила 97%.
Затем исследователи провели более сложный и приближенный к жизни эксперимент. Они проверили подборку из 10 тысяч случайных разговоров, и только один из них был посвящен опасной теме.
Здесь результаты разделились сильнее, но все равно гипотетический «атакующий» оказался довольно успешен. Для моделей DeepSeek-R1, Llama-4, GPT-4o mini, Grok-2, -3 и моделей Mistral Small и Mistral Large удалось обнаружить искомую иголку в стоге сена в 50% экспериментов с нулем ложных срабатываний.
Для Qwen2.5, Llama 3.1, GPT-4.1, OpenAI o1-mini, Llama 4, DeepSeek-V3 успешность поиска составила всего 20% при том же отсутствии ложных срабатываний. А вот в Gemini 2.5 Pro, Claude 3 Haiku и GPT-4o mini поймать «опасные» чаты на серверах Microsoft удалось лишь в 5% случаев. Для остальных протестированных моделей процент успеха был еще ниже.
Важно учесть, что результат зависит не только от конкретной ИИ-модели, но и от настроек сервера, на котором она запущена, поэтому одна и та же модель OpenAI может показывать разные результаты в инфраструктуре Microsoft и на серверах самой OpenAI. То же верно для всех моделей open source.
Практические выводы — когда работает атака Whisper Leak?
Если обеспеченный ресурсами атакующий имеет доступ к сетевому трафику своих жертв, например контролирует роутер у интернет-провайдера или в организации, он может обнаруживать значительный процент интересных ему тем разговоров, просто измеряя трафик, направленный на серверы ИИ-ассистентов. При этом процент ошибок будет очень низок.Но речь не идет об автоматическом определении любых возможных тем разговора. Сначала атакующий должен натренировать свои системы детектирования на конкретные темы — только их и будет обнаруживать модель.
Угрозу нельзя назвать целиком теоретической. В принципе, правоохранительные органы могут, например, отслеживать запросы, связанные с изготовлением Орудия или наркотиков, а компании — запросы сотрудников, связанные с поиском новой работы. Но массовую слежку по сотням и тысячам тем с помощью этой технологии не организовать — слишком затратно.
Некоторые популярные ИИ-сервисы в ответ на исследование Microsoft изменили алгоритм работы серверов, чтобы усложнить атаку.
Как защититься от Whisper Leak
Основное бремя защиты от этой атаки лежит на провайдерах ИИ-моделей. Они должны выдавать генерируемый текст таким образом, чтобы по ритму генерации нельзя было определить тему. После исследования Microsoft об устранении угрозы отчитались OpenAI, Mistral, Microsoft Azure и xAI — теперь они добавляют в пакеты, выдаваемые нейросетью, немножко невидимого пользователю «мусора», который сбивает алгоритмы Whisper Leak. А модели Anthropic изначально были слабо подвержены этой атаке.Если вы пользуетесь моделью и серверами, для которых Whisper Leak актуален, можно либо сменить провайдера на менее уязвимого, либо принять дополнительные меры предосторожности. Они также актуальны для всех, кто хочет защититься от будущих атак такого типа:
- используйте для особо конфиденциальных тем только ИИ-модели, запущенные локально;
- настройте в нейросетях, где это возможно, режим вывода без стриминга, когда весь ответ выводится целиком, а не слово за словом;
- не обсуждайте с чатботами важные темы, когда подключены к недоверенной сети;
- помните, что наиболее вероятное место утечки любой информации из чата — это ваши устройства. Поэтому обязательно надо защищать их от шпионских программ при помощи надежного защитного решения, работающего и на компьютере, и на всех ваших смартфонах.
Источник









