IT и стартапы

Mozilla нашла 271 уязвимость в Firefox с помощью ИИ почти без ложных срабатываний

Команда инженеров Mozilla два месяца тестировала модель Anthropic Mythos и впервые получила практически применимые результаты без «мусорных» отчётов.

Редактор:Казакевич Алексей

13 мая 20265 мин

Mozilla нашла 271 уязвимость в Firefox с помощью ИИ почти без ложных срабатываний

Mozilla опубликовала подробный разбор своего опыта работы с Anthropic Mythos — специализированной ИИ-моделью для поиска уязвимостей в программном коде. За два месяца система выявила 271 уязвимость в браузере Firefox, и, по словам инженеров компании, точность результатов оказалась беспрецедентной: «почти никаких ложных срабатываний». Это прямой ответ на волну скептицизма, поднявшуюся после громких заявлений CTO Mozilla о том, что ИИ сделает нулевые дни «пережитком прошлого».

Публикация выглядит как попытка подкрепить конкретными данными то, что поначалу многие восприняли как очередной маркетинговый нарратив. Скептицизм был обоснован: отрасль уже привыкла к историям, где впечатляющие результаты ИИ-инструментов тщательно отбираются, а неудобные детали остаются за кадром.

Почему предыдущие попытки проваливались

До работы с Mythos Mozilla, как и большинство компаний, сталкивалась с одной и той же проблемой: ИИ-модели генерировали правдоподобно выглядящие отчёты об ошибках, но при проверке значительная их часть оказывалась выдумкой. Модель «галлюцинировала» детали — указывала несуществующие функции, неверные адреса памяти, ошибочные цепочки вызовов.

В итоге разработчики тратили больше времени на проверку ИИ-отчётов, чем сэкономили бы при ручном поиске. Инженеры Mozilla назвали этот феномен «нежелательным слопом» (unwanted slop) — термин, который в последние годы закрепился в профессиональном сообществе для обозначения бессодержательного, но внешне убедительного вывода языковых моделей.

Что изменилось: харнесс как ключевой элемент

Прорыв стал возможен благодаря двум факторам одновременно: улучшению самих моделей и разработке специального агентного харнесса — программной обёртки, которая управляет поведением языковой модели в рамках конкретной задачи.

Brian Grinstead, Distinguished Engineer Mozilla, объяснил принцип работы харнесса так: это код, который даёт модели инструкции («найди баг в этом файле»), предоставляет ей инструменты (чтение и запись файлов, запуск тестов) и запускает её в цикле до получения результата. Фактически харнесс превращает LLM из «собеседника» в полноценного участника инженерного процесса.

Ключевой момент — Mythos получила доступ к тем же инструментам и сборочному конвейеру, которыми пользуются живые разработчики Firefox, включая специальную тестовую сборку браузера. Модель не анализировала абстрактный код — она работала в реальной среде разработки.

Создание такого харнесса требует значительных ресурсов: нужно глубоко погрузиться в специфику проекта, его инструментарий, процессы и семантику кода. Это не plug-and-play решение, которое можно развернуть за день. Mozilla инвестировала в настройку системы под конкретную кодовую базу Firefox — и именно это, судя по результатам, стало решающим.

Что это значит для практики безопасности

Результат в 271 уязвимость за два месяца с минимальным процентом ложных срабатываний — это качественный сдвиг по сравнению с тем, что демонстрировали ИИ-инструменты ещё год назад. Если раньше автоматизированный поиск уязвимостей давал «сырые» данные, требующие ручной верификации, то теперь речь идёт о результатах, которые можно сразу передавать в работу.

Для команд, занимающихся безопасностью крупных проектов, это меняет экономику процесса. Традиционный аудит кода — дорогостоящая и медленная процедура. Возможность получать достоверные отчёты об уязвимостях в автоматическом режиме потенциально позволяет проводить проверки значительно чаще и охватывать большие объёмы кода.

Для белорусского IT-рынка тема актуальна: компании-резиденты Парка высоких технологий, разрабатывающие продукты для западных рынков, работают в условиях жёстких требований к безопасности — SOC 2, ISO 27001, требования GDPR. Инструменты, снижающие стоимость и повышающие частоту аудитов безопасности, напрямую влияют на конкурентоспособность таких команд.

Вместе с тем важно понимать ограничения: Mozilla не раскрыла, какая доля из 271 уязвимости относится к критическим, а какая — к незначительным. Показатель «почти нет ложных срабатываний» также не расшифрован количественно. Реальная ценность инструмента станет яснее, когда появятся данные о том, сколько из найденных уязвимостей были реально опасными и сколько времени потребовалось на их устранение.

— По материалам Ars Technica: оригинальная статья. Перевод и адаптация — редакция Digital Business.

Теги:#Искусственный интеллект #security #mozilla #anthropic #open source

Поделиться VK

Редакция

27 июн. 20266 мин