Infini-News
Другое · 🇺🇸 США
Описание
Infini-News предоставляет доступ к 1.36B новостных статей из Common Crawl с возможностью мгновенного поиска по ключевым словам.
Original (EN)
1.36B news articles from Common Crawl, queryable in ms — Infini-News is ten years of CC-NEWS (the news subset of Common Crawl), cleaned, enriched and turned into a full-text index so you can count any keyword or phrase across 1.36B articles in sub-second time (ok, now maybe a few seconds, but circumstantial), without downloading anything. It's free and open on Hugging Face. I did it because I was sick of having to manually scrape news websites and the like for research purposes and because it felt interesting personally to tackle a project of this scale. On top of data cleaning, we have r
Проблема
Ручной сбор и анализ новостных данных для исследований требует значительных временных затрат.
Решение
Полнотекстовый индекс 1.36B статей с возможностью поиска по ключевым словам за секунды.
Для кого
Исследователи и аналитики, работающие с новостными данными.
Идея для адаптации в РБ
1. Интеграция с Tut.by архивом и Onliner для анализа медиа-трендов в Беларуси: можно отслеживать частоту упоминаний локальных брендов (евроопт, белвест) или событий (ПВТ, ERIP) в белорусских СМИ за последние 10 лет. 2. Инструмент для ПВТ-резидентов и маркетинговых агентств: анализ упоминаемости IT-компаний или продуктов (ParkBy, Viber) в региональных новостях для конкурентной аналитики и PR-стратегий.
⚠ AI-черновик. Используй как seed для собственных идей — конкретные цифры, ниши и партнёров проверяй сам.