IT и стартапы

Patronus AI привлекла $50 млн на стресс-тесты ИИ-агентов в виртуальных мирах

Стартап создаёт цифровые симуляции реальных систем, чтобы выявлять баги и «хаки» в поведении автономных агентов до их выхода в продакшн.

Редактор:Казакевич Алексей

28 июн. 20265 мин

Patronus AI привлекла $50 млн на стресс-тесты ИИ-агентов в виртуальных мирах

Стартап Patronus AI закрыл раунд Series B на $50 млн — деньги пойдут на развитие платформы, которая тестирует автономных ИИ-агентов в симулированных цифровых средах. Суммарное финансирование компании достигло $70 млн. Раунд возглавил Greenfield Partners, к нему присоединились Notable Capital, Lightspeed, Datadog и Samsung.

Компанию основали в 2023 году бывшие исследователи Meta AI Ананд Каннаппан и Ребекка Цянь. За прошедший год выручка Patronus выросла в 15 раз — и это при том, что рынок оценки ИИ-агентов только формируется.

Почему бенчмарки больше не работают

Автономные ИИ-агенты эволюционировали: они уже не просто отвечают на вопросы, а самостоятельно выполняют многошаговые задачи — бронируют поездки, проводят финансовый анализ, пишут и запускают код. Проблема в том, что высокий балл на стандартном бенчмарке не гарантирует надёжной работы в реальных условиях.

АИ-лаборатории давно знают об этом разрыве. Агент может показывать отличные результаты на тестовых наборах данных, но в продакшне находить обходные пути — «хаки» — которые формально выглядят как выполнение задачи, а по факту дают неверный результат. Именно это и пытается решить Patronus.

Цифровые миры как полигон для агентов

Patronus строит то, что сама называет «digital world models» — виртуальные копии реальных сайтов и внутренних корпоративных систем. В этих средах агенты проходят стресс-тестирование после обучения с подкреплением (reinforcement learning): система итеративно поощряет успешное выполнение задач и штрафует за ошибки.

Аналогия, которую приводит сама компания, — это то, как Waymo обучала беспилотные автомобили: сначала строила синтетические миры с редкими и опасными сценариями — гололёд, ребёнок, выбегающий на дорогу. Разница в том, что ИИ-агенты склонны срезать углы там, где автомобиль просто едет по дороге.

««Patronus очень хорошо умеет выявлять эти хаки и следить за тем, чтобы модели несли ответственность за результат», — говорит Гленн Соломон, управляющий директор Notable Capital.»

Сейчас платформа сосредоточена на двух вертикалях: разработка программного обеспечения и финансы — областях, где результат поддаётся чёткой верификации. По словам Каннаппана, это принципиально: «Мы фокусируемся на задачах, которые можно немедленно проверить. Но существует огромное количество областей, где верификация крайне затруднена — туда мы пойдём следующими».

Амбиции у команды масштабные. Каннаппан говорит, что цель — создать среду, в которой агент сможет работать непрерывно 10 часов, 10 дней или 10 недель. Это принципиально иной уровень надёжности по сравнению с тем, что предлагают существующие инструменты оценки.

Конкуренты и место на рынке

Главными конкурентами Patronus считает не другие стартапы, а внутренние команды самих ИИ-лабораторий, которые занимаются оценкой поведения агентов. Компании вроде Mercor и Surge помогают с разметкой данных для reinforcement learning, но делают это с участием людей-аннотаторов.

Patronus работает иначе: её платформа оценивает поведение агентов полностью автоматически, без привлечения людей. Это ускоряет цикл тестирования и снижает его стоимость — критически важно для лабораторий, которые выпускают новые версии моделей каждые несколько месяцев.

Спрос на продукт Соломон из Notable Capital характеризует как «практически ненасытный»: клиентами компании уже стали практически все ведущие ИИ-лаборатории и множество стартапов, строящих агентные приложения.

Что это значит для рынка

Рост Patronus отражает более широкую тенденцию: по мере того как ИИ-агенты берут на себя всё более ответственные задачи — от управления кодовой базой до анализа финансовой отчётности — запрос на инструменты контроля качества резко возрастает. Инвестиции в «инфраструктуру доверия» к ИИ становятся отдельным сегментом венчурного рынка.

Для белорусских IT-компаний и резидентов ПВТ, которые уже интегрируют ИИ-агентов в свои продукты или планируют это делать, кейс Patronus показателен: надёжность агента в реальных условиях — это не опция, а базовое требование корпоративных заказчиков. Стартапы, которые смогут предложить верифицируемые гарантии качества работы своих агентных решений, получат конкурентное преимущество при выходе на западные рынки.

— По материалам TechCrunch: оригинальная статья. Перевод и адаптация — редакция Digital Business.

Курс META · NASDAQ

Теги:#Искусственный интеллект #Стартапы #Венчур #ai agents #Финтех

Поделиться VK

Редакция

27 июн. 20265 мин