IT и стартапы

Инфраструктурный слой веб-данных: почему AI-системы упираются в потолок без него

Компании вкладывают миллиарды в AI-модели, но 60% проектов рискуют провалиться из-за одной проблемы — данные устаревают быстрее, чем модели успевают их использовать.

Редактор:Казакевич Алексей

27 июн. 20266 мин

Инфраструктурный слой веб-данных: почему AI-системы упираются в потолок без него

Искусственный интеллект упёрся в неожиданный потолок: не вычислительные мощности и не архитектура моделей, а качество и актуальность данных, которые эти модели получают. По прогнозу аналитиков Gartner, 60% AI-проектов, не подкреплённых структурированными и актуальными данными, будут закрыты до конца 2026 года. Причина — фундаментальное противоречие между тем, как устроен веб, и тем, что от него требуют современные AI-системы.

Веб изначально создавался для людей, а не для автоматизированного сбора информации. Сотни миллионов доменов, миллиарды новых URL каждую неделю, данные на десятках языков в разных форматах — всё это существует, но остаётся практически недоступным для большинства корпоративных AI-систем в режиме реального времени.

Почему статичные данные убивают AI-продукты

Традиционное обучение моделей строится на снимках данных — информации, собранной в конкретный момент времени. Такой подход работал, пока AI использовался для задач, не требующих актуальности: классификации, распознавания образов, генерации текста по устойчивым паттернам. Но как только бизнес начинает применять AI для мониторинга цен конкурентов, отслеживания потребительских настроений или анализа рыночных трендов — статичные данные превращаются в проблему.

««Если система не может получить информацию в реальном времени — у неё нет контекста. В бизнес-среде это больше неприемлемо. Устаревшие ответы ведут к плохим решениям и разочарованным клиентам», — говорит Ор Ленчнер, CEO платформы веб-данных Bright Data.»

Опрос среди AI-практиков показал: 56% специалистов считают, что бизнесу необходим доступ к веб-данным в реальном времени, чтобы повысить доверие к AI-выводам. Актуальные данные напрямую снижают количество галлюцинаций — модель опирается на релевантную базу знаний, а не на устаревшие паттерны.

Технология RAG (retrieval-augmented generation), при которой модель подтягивает внешние данные в момент запроса, частично решает проблему. Но на практике большинство корпоративных AI-систем всё равно не справляются с требованиями к актуальности и контекстуальной точности в промышленных условиях.

Что такое инфраструктурный слой веб-данных

Решение, которое обсуждается в индустрии, — выделенный инфраструктурный слой между моделью и открытым вебом. Его задача: обнаруживать нужные данные, получать их с минимальной задержкой и преобразовывать сырой HTML/JavaScript в структурированные фиды, пригодные для AI.

Ленчнер описывает принцип работы таких платформ через метафору: «Представьте обученную модель как интеллект, а актуальные данные — как знания. Мощный интеллект поверх пустого слоя знаний — это гений, который ничего не знает. Бесполезен на практике. Интеллект и знания должны работать вместе».

Технически такие платформы эмулируют поведение реального браузера: IP-адрес, геолокация, более 1000 параметров идентификации. По словам Ленчнера, речь идёт о масштабе в 80 миллиардов подобных взаимодействий в сутки для миллионов сайтов. Это позволяет работать с ресурсами, которые блокируют традиционные инструменты парсинга, — в том числе с сайтами на тяжёлом JavaScript и агрессивными антибот-системами.

Исследования показывают, что 97% AI-организаций зависят от инфраструктуры веб-данных реального времени, но 90% сталкиваются с ограничениями при её использовании. Компании вынуждены комбинировать публичный веб, API, лицензированные датасеты и внутренние данные — интеграция этих разрозненных источников в единый актуальный слой знаний требует специализированных компетенций.

Регуляторика и вопрос соответствия

Непрерывный сбор данных неизбежно поднимает вопросы соответствия требованиям. Платформы, претендующие на роль инфраструктурного слоя, должны соблюдать GDPR в Евросоюзе и CCPA в Калифорнии, ограничиваться публично доступной информацией, избегать данных за платными стенами и из закрытых аккаунтов, а также использовать только верифицированные сети с согласия владельцев IP-адресов.

Для белорусских компаний, работающих с европейскими клиентами или зарегистрированных в ПВТ с ориентацией на западные рынки, этот аспект особенно важен: любая AI-система, обрабатывающая данные граждан ЕС, попадает под действие GDPR вне зависимости от юрисдикции разработчика.

Ленчнер признаёт и организационную сторону проблемы: «Когда это становится критической инфраструктурой компании, создание её собственными силами превращается в полноценную инженерную задачу, которая конкурирует с самой AI-работой». Именно поэтому большинство организаций движутся в сторону специализированных платформ, а не собственной разработки.

Практические применения и перспективы

Конкретные сценарии использования уже работают в промышленном масштабе. Ритейлеры строят на публичных данных динамические движки ценообразования, реагирующие на изменения у конкурентов в режиме реального времени. Глобальные бренды отслеживают нарушения торговых марок по всему вебу. Финансовые компании мониторят новостной фон и настроения рынка без задержки.

Для белорусского IT-рынка этот тренд открывает несколько направлений. Во-первых, резидентам ПВТ, разрабатывающим AI-продукты для западных заказчиков, придётся закладывать стоимость подобной инфраструктуры в архитектуру решений. Во-вторых, сами платформы веб-данных — потенциально интересная ниша для стартапов: барьер входа высок технически, но спрос растёт быстрее предложения.

В долгосрочной перспективе граница между AI-моделью и инфраструктурой, которая её питает, будет стираться. Системы, способные непрерывно адаптироваться к актуальным данным, вытеснят статичные модели в большинстве бизнес-применений. Как резюмирует Ленчнер: «Мир меняется. И всё, что происходит в мире, загружается в публичный веб. Объём новых данных растёт и ускоряется». Компании, которые выстроят надёжный инфраструктурный слой сегодня, получат конкурентное преимущество, которое будет только увеличиваться.

— По материалам MIT Technology Review: оригинальная статья. Перевод и адаптация — редакция Digital Business.

Теги:#Искусственный интеллект #data infrastructure #web scraping #enterprise #rag

Поделиться VK

Редакция

26 июн. 20265 мин