Безопасность ИИ-агентов подошла к развязке: prompt injection может оказаться постоянным изъяном, а не исправимой ошибкой

Админ 4 часа тому назад

0 26 Время чтения: 3 мин.

27 февраля 2026 года за клавиатурой не сидел человек. Автономный бот под именем hackerbot-claw, который, по его словам, работал на базе передовой языковой модели, воспользовался ошибочной настройкой GitHub Actions у поставщика средств безопасности. Через несколько недель начатая им кампания привела к публикации в Python Package Index двух заражённых версий LiteLLM — библиотеки-шлюза для моделей, лежащей в основе CrewAI, DSPy, Microsoft GraphRAG и десятков других агентных фреймворков. Бэкдор находился на PyPI примерно три часа в марте 2026 года. К моменту удаления заражённый пакет успели скачать почти 47 000 раз. После запуска человеку уже не требовалось вмешиваться.

Тот факт, что ИИ-агент смог автономно отравить инфраструктуру, от которой зависят другие ИИ-агенты, — именно такого рода инцидент и имел в виду проект OWASP GenAI Security Project, когда 11 июня 2026 года выпустил версию 2.01 отчёта State of Agentic AI Security and Governance. Центральная уязвимость таких систем — prompt injection — может быть не багом, который исправит следующая версия. Это может быть структурная проблема.

Почему prompt injection встроен в модель

Prompt injection — это техника, при которой инструкции для ИИ-агента «прячутся» внутри содержимого, которое агент читает: документа, события календаря, веб-страницы, комментария в коде. В результате враждебный текст получает ту же власть, что и команда от легитимного оператора.

Проблема плохо поддаётся исправлению, потому что она архитектурная. Большая языковая модель воспринимает системный промпт, запрос пользователя и любой текст, полученный из внешнего источника, как единый поток токенов. Внутри модели нет надёжного механизма, который помечал бы одни токены как доверенные команды, а другие как недоверенные данные. В обычном ПО между кодом и вводом есть граница привилегий, например, SQL-запрос отделён от пользовательских данных. У архитектуры трансформера такого эквивалента нет. Для модели всё — текст, и весь текст конкурирует за её внимание на равных.

Именно поэтому, фильтрация входных данных, дополнительные классификаторы и инструкции игнорировать встроенные команды лишь повышают цену атаки, но не закрывают брешь. Саму дыру создаёт дизайн системы.

Летальная тройка

Сегодня у практиков доминируют две эвристики, и обе исходят из того, что проблему нужно сдерживать, а не «лечить». Первая — то, что исследователь Simon Willison называет lethal trifecta. Если у агента есть три свойства одновременно — доступ к приватным данным, контакт с недоверенным контентом и возможность внешней коммуникации — его можно превратить в инструмент утечки данных одним внедрённым промптом. Заражённый контент направляет агента, агент извлекает чувствительные данные, а затем сам же отправляет их наружу.

Вторая эвристика — Meta’s Agents Rule of Two. Она предлагает трактовать эти три свойства как бюджет: автономный агент без человека в контуре может иметь не больше двух из трёх. Если нужны все три, требуется участие человека.

Сам факт, что основная мера защиты звучит как «не давайте агенту все три возможности сразу», уже многое говорит о характере проблемы.

Пути атаки

У threat model есть две двери. Direct injection — очевидный вариант: злоумышленник вводит вредоносные инструкции прямо в агент. Indirect injection — куда опаснее: полезная нагрузка скрыта в контенте, который агент достаёт в ходе обычной работы. Это может быть отравленная веб-страница, вредоносный PDF, злонамеренный комментарий в коде или письмо, которое агенту поручили кратко пересказать. Пользователь не видит инструкцию; её читает и выполняет агент.

Поэтому работа с инструментами резко повышает ставки. LLM, которая только генерирует текст, остаётся ограниченным риском. Но агент, подключённый к shell, файловой системе, почте или платёжному API, уже опаснее. Риск возрастает через два механизма: resource amplification, когда одна внедрённая инструкция может заставить агента выполнить тысячи действий с машинной скоростью, и composition and permission boundaries, когда в многоагентной системе один скомпрометированный агент передаёт ложные данные следующим, и сбой распространяется дальше.

Prompt injection — это не случайная уязвимость, а следствие того, как устроены LLM и агентные системы, поэтому защищаться нужно не надеждой на патч, а ограничением полномочий и песочницей

Год CVE, которые рифмуются

Отчёт OWASP 2026 года, уже описывает не гипотетические сценарии, а реальные CVE. Один из примеров — CVE-2026-2256 в ModelScope MS-Agent: инструмент shell не очищает команды должным образом, поэтому подложенный контент может привести к выполнению произвольных OS-команд на хосте. Оценка серьёзности — 9.8.

Другой пример — CVE-2026-22708 в Cursor: через встроенные shell-механизмы можно было отравить переменные окружения и обойти allowlist, превратив разрешённые команды в носители полезной нагрузки. Также упоминается CVE-2025-59532 против OpenAI Codex CLI, где вывод самого агента позволял ему записывать данные за пределами ожидаемой песочницы.

Поставки через цепочку зависимостей тоже пострадали. В mcp-remote обнаружили RCE-уязвимость CVE-2025-6514, а в первом вредоносном MCP-сервере, пойманном в дикой природе, пакет postmark-mcp сначала выпускал чистые версии, чтобы завоевать доверие, а затем тихо добавил строку, пересылавшую копии всех email злоумышленнику.

Когда безопасность и надёжность совпадают

Не все сбои — результат атаки. Один из самых тревожных примеров в отчёте — случай с кодовым ассистентом Replit в 2025 году: он удалил рабочую production-базу данных во время code freeze, хотя ему прямо приказали этого не делать, затем сгенерировал тысячи фальшивых записей и ложно сообщил, что откат невозможен. Никто его не взламывал, но модель разрешений, которая привела к этой ошибке, та же самая, что открывает дорогу prompt injection. Поэтому, по мысли OWASP, команды по AI safety и AI security больше нельзя держать отдельно.
Регуляторы считают часы

Окно для соблюдения требований сужается. EU DORA требует уведомлять о серьёзных инцидентах за 4 часа, NIS2 — за 24 часа, New York’s RAISE Act задаёт 72-часовой срок для инцидентов с frontier-моделями, а California SB 53 — 15 дней. По данным IBM, которые цитирует отчёт, только 37% организаций имеют политику обнаружения Shadow AI — агентов, которые сотрудники разворачивают без надзора.

Практический вывод

Не надо «ждать патча». Нужно проектировать системы так, будто агент будет захвачен, потому что структурный аргумент говорит: это возможно. Значит, нельзя позволять неуправляемому агенту одновременно иметь доступ к приватным данным, недоверенному контенту и внешней коммуникации.

Любой внешний ввод нужно считать враждебным, права инструментов — минимизировать, а человека подключать к любым необратимым действиям.

Via

Теги