ШІ-модель GPT-5.5 перемогла в тесті на пошук вразливостей, а Gemini опинилася серед аутсайдерів

Зміст

На тлі стрімкого розвитку штучного інтелекту, фахівець із безпеки Касра Рахджерді провів цікавий експеримент, щоб оцінити здатність різних ШІ-моделей виявляти вразливості у програмному забезпеченні. Його дослідження, хоч і не є науковим бенчмарком, надає цінну інформацію про можливості сучасних ШІ-систем у сфері кібербезпеки.

ШІ-моделі проти вразливостей: хто кого?

Експеримент полягав у тестуванні більше десятка ШІ-моделей на їхню здатність знаходити вразливості у спеціально розробленому Android-застосунку. Для цього дослідник створив додаток для рецензування книг, який містив навмисно вбудовану слабкість – відкриті облікові дані Firebase, що надавали прямий доступ до бази даних в обхід захищеного API. Кожна модель отримувала обмежений бюджет у 10 доларів та два години на виконання завдання, а загальні витрати на експеримент сягнули близько 1500 доларів.

Результати експерименту:

GPT-5.5 від OpenAI продемонструвала найкращу результативність, успішно виявивши вразливість у 7 з 10 спроб. За словами Рахджерді, ця модель майже одразу зосереджувалася на конфігурації Firebase після аналізу APK-файлу, рідко відволікаючись на інші компоненти застосунку.
DeepSeek V4 Pro показала нижчий результат – 3 успішні спроби з 10. Однак, ця модель виявилася найекономічнішою, адже середня вартість успішного знаходження вразливості склала всього 0,62 долара, порівняно з 9,46 доларами у GPT-5.5.
Claude Sonnet 4.6 та Claude Opus 4.8 впоралися із завданням лише у 2 з 10 випадків. Цікаво, що Claude Opus 4.8 кілька разів наближалася до правильного рішення, але припиняла роботу через власні вбудовані механізми безпеки.
Gemini 3.1 Pro Preview показала найгірший результат, відмовляючись виконувати завдання майже одразу. Gemini 3.5 Flash також часто завершувала роботу передчасно.

Дослідник також зазначив, що китайські моделі загалом виявилися менш обмеженими під час взаємодії з базами даних та тестовими системами, тоді як західні моделі частіше зупинялися через власні запобіжники безпеки, навіть коли знаходили правильний шлях до вирішення проблеми.

Важливо підкреслити, що експеримент Касри Рахджерді не є офіційним науковим дослідженням, а скоріше практичним порівнянням поведінки сучасних ШІ-моделей у сценарії, наближеному до реальних умов пошуку вразливостей. Результати показують, що хоча деякі моделі демонструють вражаючі здібності, питання безпеки та етичних обмежень залишаються важливими аспектами розвитку штучного інтелекту.