Перейти к содержимому
I

Infini-News

Другое · 🇺🇸 США

🌐 cs2.uni-graz.at/blog/infini-news

Описание

Infini-News предоставляет доступ к 1.36B новостных статей из Common Crawl с возможностью мгновенного поиска по ключевым словам.

Original (EN)

1.36B news articles from Common Crawl, queryable in ms — Infini-News is ten years of CC-NEWS (the news subset of Common Crawl), cleaned, enriched and turned into a full-text index so you can count any keyword or phrase across 1.36B articles in sub-second time (ok, now maybe a few seconds, but circumstantial), without downloading anything. It's free and open on Hugging Face. I did it because I was sick of having to manually scrape news websites and the like for research purposes and because it felt interesting personally to tackle a project of this scale. On top of data cleaning, we have r

🎯

Проблема

Ручной сбор и анализ новостных данных для исследований требует значительных временных затрат.

💡

Решение

Полнотекстовый индекс 1.36B статей с возможностью поиска по ключевым словам за секунды.

👥

Для кого

Исследователи и аналитики, работающие с новостными данными.

💭

Идея для адаптации в РБ

1. Интеграция с Tut.by архивом и Onliner для анализа медиа-трендов в Беларуси: можно отслеживать частоту упоминаний локальных брендов (евроопт, белвест) или событий (ПВТ, ERIP) в белорусских СМИ за последние 10 лет. 2. Инструмент для ПВТ-резидентов и маркетинговых агентств: анализ упоминаемости IT-компаний или продуктов (ParkBy, Viber) в региональных новостях для конкурентной аналитики и PR-стратегий.

⚠ AI-черновик. Используй как seed для собственных идей — конкретные цифры, ниши и партнёров проверяй сам.

По данным Hacker News · Перевод сгенерирован автоматически

Похожие стартапы — Другое