Перейти к содержимому
IT и стартапы

Стартап Subquadratic заявил о прорыве в архитектуре LLM — и привёл независимые доказательства

Компания из Майами утверждает, что её модель SubQ работает в 56 раз быстрее конкурентов и обходится в сотни раз дешевле при сопоставимом качестве.

Казакевич Алексей
6 мин
Стартап Subquadratic заявил о прорыве в архитектуре LLM — и привёл независимые доказательства

Американский стартап Subquadratic заявил, что решил математическую проблему, тормозившую развитие больших языковых моделей почти десять лет. Компания представила модель SubQ — первый, по её словам, LLM на основе разреженного внимания, который не уступает топовым моделям Google DeepMind, OpenAI и Anthropic по качеству, но работает принципиально быстрее и дешевле. Независимая оценка компании Appen подтвердила ключевые заявления.

Первоначально анонс в мае 2026 года встретил волну скептицизма: Subquadratic опубликовала лишь собственные тесты без верификации. Инженер по ИИ Дэн МакАтир сформулировал общее настроение в X: «SubQ — либо крупнейший прорыв со времён трансформера, либо AI-Theranos». Теперь компания опубликовала результаты сторонней проверки и признала, что стоило сделать это с самого начала.

Почему квадратичное внимание — это проблема

Чтобы понять масштаб заявленного прорыва, нужно разобраться в том, как устроены современные LLM. Основа большинства из них — архитектура трансформера, предложенная исследователями Google в 2017 году в статье «Attention Is All You Need». Ключевой механизм — так называемое плотное внимание (dense attention).

Принцип работы прост: каждый токен (слово или его часть) кодируется числом, после чего это число перемножается с числами всех остальных токенов в тексте. Для текста длиной 10 000 слов это около 50 миллионов отдельных умножений. При удвоении длины текста число вычислений возрастает примерно вчетверо — отсюда термин «квадратичное расширение». Именно поэтому LLM требуют огромных вычислительных мощностей и потребляют колоссальное количество энергии.

Для белорусского IT-рынка это не абстрактная проблема: компании из ПВТ, работающие с LLM-продуктами, хорошо знакомы со стоимостью API-вызовов к моделям OpenAI или Anthropic. Снижение стоимости инференса в сотни раз напрямую влияет на юнит-экономику таких продуктов.

Как SubQ обходит ограничение и что показали тесты

Решение Subquadratic — заменить плотное внимание разреженным (sparse attention). Идея не нова: вместо перемножения каждого токена с каждым модель выбирает только значимые пары. Проблема в том, что предыдущие реализации разреженного внимания использовали фиксированные паттерны — например, всегда сравнивать первое слово с пятым — и в итоге теряли в качестве понимания текста.

««Исторически большинство механизмов использовали фиксированные паттерны. Это сильно ограничивает возможности, потому что язык слишком сложен для такого подхода. Наш механизм динамически выбирает, какие токены важны», — говорит сооснователь и CTO компании Алекс Уидон.»

Конкретный алгоритм отбора токенов компания не раскрывает, называя его «секретным соусом». Выбор производится в реальном времени и различается для каждого входящего текста.

Результаты независимого тестирования Appen выглядят убедительно. В тесте на скорость SubQ оказалась в 56 раз быстрее моделей, использующих FlashAttention — предыдущую технику разреженного внимания. На LiveCodeBench, бенчмарке по задачам из реальных соревнований по программированию, SubQ набрала 89,7% — результат, сопоставимый с ведущими coding-моделями на рынке.

«Это действительно взволновало меня — результаты подтвердили их архитектуру», — говорит Жанин Синанан-Сингх, директор по исследованиям генеративного ИИ в Appen. По её словам, именно потому, что результаты выглядят шокирующими, их верификация третьей стороной критически важна для доверия.

Отдельно впечатляют данные по стоимости. По словам CEO компании Джастина Дангела, прогон теста RULER 128 (разработан Nvidia для оценки работы с большими массивами данных) на модели Anthropic Opus 4.6 обходится в $2600. Тот же тест на SubQ стоил компании $8. Верифицировать эту цифру независимо пока невозможно: широкого публичного доступа к SubQ нет.

Контекстное окно SubQ составляет до 12 миллионов токенов — против 1 миллиона у большинства топовых моделей сегодня. Это открывает возможность анализировать сотни документов или целые кодовые базы за один запрос.

Скептицизм сохраняется, но ставки высоки

Несмотря на результаты Appen, часть экспертного сообщества остаётся осторожной. Уилл Депью, независимый исследователь ИИ и бывший сотрудник OpenAI, признаёт, что попытки создать эффективное разреженное внимание предпринимались многократно: «Практически всё мыслимое уже пробовали. Это не невозможно, но сравнимо с пробежкой мили за четыре минуты».

Subquadratic пока не открыла широкий доступ к модели, что ограничивает возможности независимой проверки. Компания также не публиковала технический отчёт с детальным описанием архитектуры. Это стандартная практика для стартапов, защищающих IP, но именно она питает скептицизм.

Тем не менее сооснователи настроены амбициозно. «Мы надеемся, что запускаем новую эпоху эффективности», — говорит Дангел. — «Мы не думаем, что кто-то будет строить на трансформерах через несколько лет».

Для IT-индустрии в целом и белорусских команд, разрабатывающих AI-продукты, в частности, это направление заслуживает пристального внимания. Если заявленное соотношение цены и качества подтвердится при широком тестировании, это радикально изменит экономику LLM-приложений — от чат-ботов до систем анализа юридических и финансовых документов, которые активно разрабатываются в ПВТ.

— По материалам MIT Technology Review: оригинальная статья. Перевод и адаптация — редакция Digital Business.

Курс GOOGL · NASDAQ
ПоделитьсяVK

Свежие новости

Все новости
SubQ: LLM в 56 раз быстрее и за $8 вместо $2600 · Digital Business