Fundus: A Simple-to-Use News Scraper Optimized for High Quality Extractions

要約

この文書では、ユーザーがわずか数行のコードで数百万の高品質のニュース記事を取得できるユーザーフレンドリーなニューススクレーパーである Fundus を紹介します。
既存のニュース スクレーパーとは異なり、サポートされている各オンライン新聞のフォーマット ガイドラインに合わせて特別に調整された手動で作成された特注のコンテンツ抽出ツールを使用します。
これにより、取得したニュース記事がテキスト的に完全で、HTML アーティファクトが含まれないように、スクレイピングの品質を最適化することができます。
さらに、当社のフレームワークは、クロール (Web または大規模な Web アーカイブから HTML を取得する) とコンテンツ抽出の両方を 1 つのパイプラインに結合します。
事前に定義された新聞のコレクションに統一インターフェイスを提供することで、技術者以外のユーザーでも Fundus を広く使用できるようにすることを目指しています。
このペーパーでは、フレームワークの概要を示し、設計上の選択について説明し、他の一般的なニュース スクレイパーとの比較評価を示します。
私たちの評価によると、Fundus は以前の研究よりも大幅に高品質の抽出 (完全でアーティファクトのないニュース記事) を生成します。
このフレームワークは GitHub の https://github.com/flairNLP/fundus で入手でき、pip を使用して簡単にインストールできます。

要約(オリジナル)

This paper introduces Fundus, a user-friendly news scraper that enables users to obtain millions of high-quality news articles with just a few lines of code. Unlike existing news scrapers, we use manually crafted, bespoke content extractors that are specifically tailored to the formatting guidelines of each supported online newspaper. This allows us to optimize our scraping for quality such that retrieved news articles are textually complete and without HTML artifacts. Further, our framework combines both crawling (retrieving HTML from the web or large web archives) and content extraction into a single pipeline. By providing a unified interface for a predefined collection of newspapers, we aim to make Fundus broadly usable even for non-technical users. This paper gives an overview of the framework, discusses our design choices, and presents a comparative evaluation against other popular news scrapers. Our evaluation shows that Fundus yields significantly higher quality extractions (complete and artifact-free news articles) than prior work. The framework is available on GitHub under https://github.com/flairNLP/fundus and can be simply installed using pip.

arxiv情報

著者 Max Dallabetta,Conrad Dobberstein,Adrian Breiding,Alan Akbik
発行日 2024-03-22 15:22:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク