Перейти к содержимому
IT и стартапы

Учёные выяснили, почему большие языковые модели умеют то, чего не могут маленькие

Исследование Anthropic и Stanford раскрывает механизм «вытеснения» редких навыков в нейросетях и предлагает альтернативу бесконечному масштабированию.

Казакевич Алексей
6 мин
Учёные выяснили, почему большие языковые модели умеют то, чего не могут маленькие
Содержание
  1. Почему частые задачи вытесняют редкие
  2. Эксперименты на OLMo и феномен «grokking»
  3. Практический вывод: частота данных как альтернатива масштабированию

Исследователи из Anthropic, Stanford и ряда других организаций установили конкретный механизм, из-за которого малые языковые модели не осваивают редкие задачи даже при очень длительном обучении. Вывод меняет привычную логику: дело не в том, что большие модели просто «быстрее учатся» — малые модели в принципе не могут надёжно закрепить навыки, которые редко встречаются в тренировочных данных. При этом у исследователей есть практическая альтернатива бесконечному наращиванию параметров.

Почему частые задачи вытесняют редкие

Авторы работы сформулировали ключевую идею через понятие «полезности» признаков. Модель с N нейронами распределяет ресурсы между N наиболее полезными паттернами, где полезность определяется частотой появления задачи в данных и её значимостью. Частые и простые задачи занимают приоритетные слоты, редкие и сложные — вытесняются.

Пока частые задачи не усвоены достаточно хорошо, они на каждом шаге обучения тянут модель в свою сторону, перезаписывая то немногое, что модель успела запомнить о редких примерах. Как только большая модель в основном справляется с частыми задачами, этот «гравитационный» эффект ослабевает — и освободившаяся ёмкость уходит на редкие паттерны.

Малые модели до этой точки не доходят. Они попадают в петлю «выучил — забыл»: редкий пример ненадолго фиксируется, затем стирается следующими шагами на частых задачах. Когда редкий пример встречается снова, модель начинает с нуля.

Отдельный эксперимент изолировал этот эффект: суммарная частота редкой задачи оставалась постоянной, но менялся интервал между отдельными примерами. Чем больше разрыв — тем сильнее сигнал затухает в узких моделях. Широкие модели удерживают накопленное между наблюдениями и надстраивают поверх него.

Эксперименты на OLMo и феномен «grokking»

Для проверки теории команда обучала модели OLMo с числом параметров от 4 миллионов до 4 миллиардов на корпусе Dolma объёмом до 210 миллиардов токенов. В данные были намеренно подмешаны две искусственные задачи — сравнение чисел и модульное сложение — с частотой от примерно 1 000 примеров на батч до одного примера на каждые десять батчей.

Только крупные модели OLMo надёжно освоили редкие задачи: они выводили правило и применяли его к новым случаям, а не просто запоминали отдельные примеры. Особенно наглядно это проявилось с модульным сложением, где наблюдался феномен grokking — модель сначала заучивает задачу механически, а затем в какой-то момент «щёлкает» и понимает принцип. До этого момента доходили только большие модели, и только при достаточной частоте задачи в данных.

Взгляд внутрь моделей подтверждает картину. В модели на 1 миллиард параметров каждый тренировочный шаг с редкой задачей давал чёткий сигнал в сторону правильного ответа. В модели на 20 миллионов параметров этот сигнал тонул в шуме от всего остального — реального обучения почти не происходило.

Авторы также переосмысливают роль запоминания: в их трактовке меморизация — не нежелательный побочный эффект, а необходимая ступень к обобщению. Модель должна удерживать отдельные наблюдения достаточно долго, чтобы через множество батчей сформировался более широкий паттерн.

Практический вывод: частота данных как альтернатива масштабированию

Главный прикладной результат исследования — возможность заменить рост модели целенаправленным увеличением частоты нужной задачи в тренировочных данных. Если конкретный навык редко встречается в корпусе, его можно «заякорить» даже в относительно небольшой модели, просто повысив его представленность при составлении датасета.

Это важно в контексте нынешней гонки за параметрами. Обучение и инференс сверхбольших моделей требуют колоссальных вычислительных ресурсов и энергии. Для белорусских IT-компаний и стартапов из экосистемы ПВТ, которые работают с собственными или дообученными моделями, вывод практичен: прежде чем тянуться к более тяжёлой архитектуре, стоит проверить, насколько хорошо целевая задача представлена в тренировочном наборе.

Исследование существует не в вакууме. В мае 2025 года команда MIT связала законы масштабирования с геометрией моделей — тем, как нейросети хранят концепции через суперпозицию, превышая номинальную размерность. Новая работа подходит с другой стороны: она смотрит не на структуру модели, а на то, что модель реально способна извлечь из конкретного распределения данных.

Параллельно продолжается старая дискуссия о том, действительно ли способности «возникают» скачкообразно при достижении определённого размера модели или это артефакт метрик измерения. Новое исследование не закрывает этот спор, но добавляет в него конкретный механистический аргумент: по крайней мере часть «эмерджентных» способностей объясняется не магией масштаба, а банальной статистикой — тем, как часто задача встречается в данных и успевает ли модель её удержать.

— По материалам The Decoder: оригинальная статья. Перевод и адаптация — редакция Digital Business.

ПоделитьсяVK

Свежие новости

Все новости