A diverse Multilingual News Headlines Dataset from around the World


Babel Briefings は、2020 年 8 月から 2021 年 11 月までの 30 言語、世界 54 か所にわたる 470 万件のニュース ヘッドラインを収録した新しいデータセットで、すべての記事の英語翻訳が含まれています。
このデータセットによって促進される分析の簡単なデモンストレーションとして、TF-IDF 加重類似度メトリックを使用する基本手順を使用して、同じイベントに関する記事をクラスターにグループ化します。
次に、イベントの \emph{イベント シグネチャ} を視覚化し、時間の経過とともにどの言語の記事が表示されるかを表示し、イベントの近さとイベントの意外性に基づいた直感的な特徴を明らかにします。
データセットは \href{https://www.kaggle.com/datasets/felixludos/babel-briefings}{Kaggle} および \href{https://huggingface.co/datasets/felixludos/babel-briefings}{ で入手できます。
HuggingFace} とそれに付随する \href{https://github.com/felixludos/babel-briefings}{GitHub} コード。


Babel Briefings is a novel dataset featuring 4.7 million news headlines from August 2020 to November 2021, across 30 languages and 54 locations worldwide with English translations of all articles included. Designed for natural language processing and media studies, it serves as a high-quality dataset for training or evaluating language models as well as offering a simple, accessible collection of articles, for example, to analyze global news coverage and cultural narratives. As a simple demonstration of the analyses facilitated by this dataset, we use a basic procedure using a TF-IDF weighted similarity metric to group articles into clusters about the same event. We then visualize the \emph{event signatures} of the event showing articles of which languages appear over time, revealing intuitive features based on the proximity of the event and unexpectedness of the event. The dataset is available on \href{https://www.kaggle.com/datasets/felixludos/babel-briefings}{Kaggle} and \href{https://huggingface.co/datasets/felixludos/babel-briefings}{HuggingFace} with accompanying \href{https://github.com/felixludos/babel-briefings}{GitHub} code.


著者 Felix Leeb,Bernhard Schölkopf
発行日 2024-03-28 12:08:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク