A Python Tool for Reconstructing Full News Text from GDELT

要約

ニュースデータは、経済学、財政、管理、社会科学、コンピューターサイエンスなど、さまざまな分野にわたって重要なリソースになっています。
研究者は新聞記事を活用して、経済動向、市場のダイナミクス、企業戦略、公的認識、政治的言説、世論の進化を研究します。
さらに、ニュースデータセットは、センチメント分析、偽のニュース検出、自動ニュース要約のアプリケーションを備えた大規模な言語モデルのトレーニングに貢献しています。
その重要性にもかかわらず、包括的なニュースコーパスへのアクセスは依然として重要な課題です。
FactivaやLexisNexisなどの多くのフルテキストニュースプロバイダーには、費用のかかるサブスクリプションが必要ですが、無料の代替案は不完全なデータや透明性の問題に苦しむことがよくあります。
このペーパーでは、イベント、言語、トーン(GDELT)のグローバルデータベースからデータを活用することにより、ほぼゼロのコストで全文新聞記事を取得するための新しいアプローチを紹介します。
具体的には、Gdelt Web News Ngrams 3.0データセットに焦点を当て、グローバルなオンラインニュースソースから抽出されたN-Gramsの高周波更新を提供します。
重複するテキストフラグメントを識別し、それらをインテリジェントにマージすることにより、これらのNグラムからフルテキストの記事を再構築するためのPythonコードを提供します。
私たちの方法により、研究者は、既存の独自のデータセットの制限を克服しながら、テキスト分析のために構造化された大規模な新聞データにアクセスできます。
提案されたアプローチは、経験的研究のためのニュースデータのアクセシビリティを強化し、経済予測、計算社会科学、および自然言語処理におけるアプリケーションを促進します。

要約(オリジナル)

News data have become an essential resource across various disciplines, including economics, finance, management, social sciences, and computer science. Researchers leverage newspaper articles to study economic trends, market dynamics, corporate strategies, public perception, political discourse, and the evolution of public opinion. Additionally, news datasets have been instrumental in training large-scale language models, with applications in sentiment analysis, fake news detection, and automated news summarization. Despite their significance, access to comprehensive news corpora remains a key challenge. Many full-text news providers, such as Factiva and LexisNexis, require costly subscriptions, while free alternatives often suffer from incomplete data and transparency issues. This paper presents a novel approach to obtaining full-text newspaper articles at near-zero cost by leveraging data from the Global Database of Events, Language, and Tone (GDELT). Specifically, we focus on the GDELT Web News NGrams 3.0 dataset, which provides high-frequency updates of n-grams extracted from global online news sources. We provide Python code to reconstruct full-text articles from these n-grams by identifying overlapping textual fragments and intelligently merging them. Our method enables researchers to access structured, large-scale newspaper data for text analysis while overcoming the limitations of existing proprietary datasets. The proposed approach enhances the accessibility of news data for empirical research, facilitating applications in economic forecasting, computational social science, and natural language processing.

arxiv情報

著者 A. Fronzetti Colladon,R. Vestrelli
発行日 2025-04-22 17:40:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB, cs.IR, H.2.8 パーマリンク