Дослідники вмовили GPT видати заборонену інформацію аргументом, що вони вдягнені у зелену сорочку

Зміст

Дослідники розробили новаторський метод, який дозволяє обходити обмеження мовних моделей, зокрема GPT, змушуючи їх видавати заборонену інформацію з вражаючою 60% ймовірністю, тоді як у стандартних умовах цей показник становить 0%. Ця техніка, названа “Prompt Injection as Role Confusion”, базується на використанні безперервного запиту, що складається з тверджень, позначених різними тегами, а її ефективність полягає в тому, що штучний інтелект оцінює запит не за змістом, а за тоном, і не завжди розрізняє запит користувача від власних “роздумів”.

Наукова робота та її презентація

Результати цього дослідження, проведенного Чарльзом Є, Жасмін Куй та Діланом Хадфілдом-Менеллом з MIT, будуть представлені на престижній конференції ICML 2026 у Сеулі 6 липня. Автори вже опублікували розширений звіт, який підкреслює, що висновки стосуються не лише GPT, але й широкого спектру сучасних мовних моделей.

Механізм атаки: CoT Forgery

Суть методу CoT Forgery полягає у впровадженні сфабрикованих “міркувань” у підказку, що змушує модель сприймати частину запиту як власний, вже отриманий висновок. Цей “висновок” може бути абсурдним, наприклад, прохання надати інструкції з виготовлення кокаїну, мотивоване носінням користувачем зеленої сорочки, або ж подання небезпечної інструкції як “коду поліції”. Модель, не розглядаючи це як зовнішнє твердження, діє з довірою до свого “міркування”. Ця атака демонструє стійкість, не слабнучи навіть при екстремальних запитах, на відміну від традиційних методів “злому” на основі переконання.

Аналіз ефективності та фактори впливу

Видалення стилістичних маркерів, що імітують “міркування” моделі, знизило середній успіх атаки з 61% до 10%.
Заміна слова “користувач” на “запит” призвела до зниження успішності атаки на 19%.

“Теги ролей стали трюком форматування, який став основою архітектури безпеки та когнітивним каркасом сучасних LLM”, – зазначають автори дослідження.

Фундаментальність методу та майбутні виклики

Автори провели експеримент, заховавши команду на вебсторінці, яка наказувала моделі завантажити файл, а потім додали префікс “User:”, щоб небезпечна інструкція виглядала як запит від довіреної ролі. Експлойт спрацював, підтвердивши фундаментальність виявленого методу. Дослідники роблять висновок, що без суттєвого покращення сприйняття ролей моделями, захист від подібних “ін’єкцій” залишатиметься ненадійним. Це питання стає особливо актуальним у контексті розвитку штучного інтелекту та його потенційного використання у деструктивних цілях, як, наприклад, створення мереж фейкових сайтів для впливу на інформаційний простір.