Mozilla нашла 271 уязвимость в Firefox с помощью ИИ почти без ложных срабатываний
Команда инженеров Mozilla два месяца тестировала модель Anthropic Mythos и впервые получила практически применимые результаты без «мусорных» отчётов.

Mozilla опубликовала подробный разбор своего опыта работы с Anthropic Mythos — специализированной ИИ-моделью для поиска уязвимостей в программном коде. За два месяца система выявила 271 уязвимость в браузере Firefox, и, по словам инженеров компании, точность результатов оказалась беспрецедентной: «почти никаких ложных срабатываний». Это прямой ответ на волну скептицизма, поднявшуюся после громких заявлений CTO Mozilla о том, что ИИ сделает нулевые дни «пережитком прошлого».
Публикация выглядит как попытка подкрепить конкретными данными то, что поначалу многие восприняли как очередной маркетинговый нарратив. Скептицизм был обоснован: отрасль уже привыкла к историям, где впечатляющие результаты ИИ-инструментов тщательно отбираются, а неудобные детали остаются за кадром.
Почему предыдущие попытки проваливались
До работы с Mythos Mozilla, как и большинство компаний, сталкивалась с одной и той же проблемой: ИИ-модели генерировали правдоподобно выглядящие отчёты об ошибках, но при проверке значительная их часть оказывалась выдумкой. Модель «галлюцинировала» детали — указывала несуществующие функции, неверные адреса памяти, ошибочные цепочки вызовов.
В итоге разработчики тратили больше времени на проверку ИИ-отчётов, чем сэкономили бы при ручном поиске. Инженеры Mozilla назвали этот феномен «нежелательным слопом» (unwanted slop) — термин, который в последние годы закрепился в профессиональном сообществе для обозначения бессодержательного, но внешне убедительного вывода языковых моделей.
Что изменилось: харнесс как ключевой элемент
Прорыв стал возможен благодаря двум факторам одновременно: улучшению самих моделей и разработке специального агентного харнесса — программной обёртки, которая управляет поведением языковой модели в рамках конкретной задачи.
Brian Grinstead, Distinguished Engineer Mozilla, объяснил принцип работы харнесса так: это код, который даёт модели инструкции («найди баг в этом файле»), предоставляет ей инструменты (чтение и запись файлов, запуск тестов) и запускает её в цикле до получения результата. Фактически харнесс превращает LLM из «собеседника» в полноценного участника инженерного процесса.
Ключевой момент — Mythos получила доступ к тем же инструментам и сборочному конвейеру, которыми пользуются живые разработчики Firefox, включая специальную тестовую сборку браузера. Модель не анализировала абстрактный код — она работала в реальной среде разработки.
Создание такого харнесса требует значительных ресурсов: нужно глубоко погрузиться в специфику проекта, его инструментарий, процессы и семантику кода. Это не plug-and-play решение, которое можно развернуть за день. Mozilla инвестировала в настройку системы под конкретную кодовую базу Firefox — и именно это, судя по результатам, стало решающим.
Что это значит для практики безопасности
Результат в 271 уязвимость за два месяца с минимальным процентом ложных срабатываний — это качественный сдвиг по сравнению с тем, что демонстрировали ИИ-инструменты ещё год назад. Если раньше автоматизированный поиск уязвимостей давал «сырые» данные, требующие ручной верификации, то теперь речь идёт о результатах, которые можно сразу передавать в работу.
Для команд, занимающихся безопасностью крупных проектов, это меняет экономику процесса. Традиционный аудит кода — дорогостоящая и медленная процедура. Возможность получать достоверные отчёты об уязвимостях в автоматическом режиме потенциально позволяет проводить проверки значительно чаще и охватывать большие объёмы кода.
Для белорусского IT-рынка тема актуальна: компании-резиденты Парка высоких технологий, разрабатывающие продукты для западных рынков, работают в условиях жёстких требований к безопасности — SOC 2, ISO 27001, требования GDPR. Инструменты, снижающие стоимость и повышающие частоту аудитов безопасности, напрямую влияют на конкурентоспособность таких команд.
Вместе с тем важно понимать ограничения: Mozilla не раскрыла, какая доля из 271 уязвимости относится к критическим, а какая — к незначительным. Показатель «почти нет ложных срабатываний» также не расшифрован количественно. Реальная ценность инструмента станет яснее, когда появятся данные о том, сколько из найденных уязвимостей были реально опасными и сколько времени потребовалось на их устранение.
— По материалам Ars Technica: оригинальная статья. Перевод и адаптация — редакция Digital Business.








