The Atlantic открыл базу из 21 млн треков, использованных для обучения ИИ
Журналисты обнаружили четыре датасета с музыкой, которые скачали тысячи раз — среди авторов Lady Gaga, Radiohead и Wu-Tang Clan.

Репортёр The Atlantic Алекс Рейснер выявил четыре датасета с музыкальными треками, которые применялись при обучении ИИ-моделей, и открыл к ним публичный поиск. Два крупнейших набора содержат 12 миллионов и 9 миллионов треков соответственно. Ещё два — меньше по объёму, но каждый превышает 100 000 записей. Редакция разместила инструмент поиска на платформе AI Watchdog, где любой желающий может проверить, попала ли его музыка в обучающие данные.
В базах встречаются имена исполнителей самых разных жанров: от поп-звёзд Lady Gaga и Fred Again.. до Radiohead, Aphex Twin, Wu-Tang Clan, Bruce Springsteen и экспериментального композитора Hainbach. Присутствие столь разнородного каталога указывает на то, что составители датасетов не делали различий между мейнстримом и андеграундом.
Как собирались данные и почему это проблема
Три из четырёх найденных датасетов распространяются не в виде готовых аудиофайлов, а как списки ссылок на треки в YouTube и Spotify. Разработчики ИИ скачивают аудио с помощью специализированных инструментов, часть которых умеет обходить авторизацию, рекламу и другие механизмы монетизации платформ. Использование подобных инструментов прямо нарушает пользовательские соглашения обеих платформ.
Отдельные источники в датасетах формально открыты для личного прослушивания — например, Free Music Archive. Однако коммерческое использование, к которому относится обучение коммерческих ИИ-систем, требует отдельного лицензирования. Граница между «свободным» и «лицензируемым» использованием здесь намеренно размыта, что и создаёт правовую неопределённость.
Датасеты были скачаны тысячи раз, и точно установить всех пользователей невозможно. Тем не менее Google и Stability AI публично подтвердили факт использования этих наборов данных — соответствующие упоминания содержатся в их исследовательских статьях.
Масштаб проблемы и контекст для рынка
История вписывается в более широкую дискуссию об авторских правах в эпоху генеративного ИИ. Музыкальная индустрия уже несколько лет судится с крупнейшими технологическими компаниями: в 2023–2024 годах иски против разработчиков ИИ подали Universal Music Group, Sony Music и ряд независимых лейблов. Ключевой вопрос — считается ли обучение модели на защищённом контенте нарушением авторских прав — до сих пор не получил однозначного ответа ни в американском, ни в европейском праве.
Для белорусского IT-рынка тема актуальна косвенно, но ощутимо. Компании из ПВТ, разрабатывающие продукты с генерацией аудио или музыкальными рекомендациями, рискуют столкнуться с теми же претензиями, если используют публично доступные датасеты без проверки их правового статуса. Европейский AI Act, вступающий в силу поэтапно с 2025 года, обязывает провайдеров ИИ-систем документировать источники обучающих данных — требование, которое напрямую затрагивает экспортно-ориентированные белорусские продукты.
Инструмент The Atlantic позволяет исполнителям и правообладателям самостоятельно проверить, попали ли их произведения в тренировочные наборы. Это первый публичный сервис подобного рода для музыкального сегмента — ранее аналогичные базы существовали только для текстов и изображений. Насколько активно правообладатели воспользуются этой информацией в судебных претензиях — покажут ближайшие месяцы.
Рейснер подчёркивает: сам факт того, что датасеты технически доступны в интернете, не делает их использование законным. Разница между «можно скачать» и «можно использовать для коммерческого обучения ИИ» — принципиальная, и именно на этом различии строятся большинство текущих исков к разработчикам генеративных моделей.
— По материалам The Verge: оригинальная статья. Перевод и адаптация — редакция Digital Business.








