A diverse Multilingual News Headlines Dataset from around the World

要約

Babel Briefings は、2020 年 8 月から 2021 年 11 月までの 30 言語、世界 54 か所にわたる 470 万件のニュース ヘッドラインを収録した新しいデータセットで、すべての記事の英語翻訳が含まれています。
自然言語処理とメディア研究用に設計されており、言語モデルのトレーニングまたは評価のための高品質のデータセットとして機能するだけでなく、たとえば世界的なニュース報道や文化的物語を分析するためのシンプルでアクセスしやすい記事のコレクションも提供します。
このデータセットによって促進される分析の簡単なデモンストレーションとして、TF-IDF 加重類似度メトリックを使用する基本手順を使用して、同じイベントに関する記事をクラスターにグループ化します。
次に、イベントの \emph{イベント シグネチャ} を視覚化し、時間の経過とともにどの言語の記事が表示されるかを表示し、イベントの近さとイベントの意外性に基づいた直感的な特徴を明らかにします。
データセットは \href{https://www.kaggle.com/datasets/felixludos/babel-briefings}{Kaggle} および \href{https://huggingface.co/datasets/felixludos/babel-briefings}{ で入手できます。
HuggingFace} とそれに付随する \href{https://github.com/felixludos/babel-briefings}{GitHub} コード。

要約(オリジナル)

Babel Briefings is a novel dataset featuring 4.7 million news headlines from August 2020 to November 2021, across 30 languages and 54 locations worldwide with English translations of all articles included. Designed for natural language processing and media studies, it serves as a high-quality dataset for training or evaluating language models as well as offering a simple, accessible collection of articles, for example, to analyze global news coverage and cultural narratives. As a simple demonstration of the analyses facilitated by this dataset, we use a basic procedure using a TF-IDF weighted similarity metric to group articles into clusters about the same event. We then visualize the \emph{event signatures} of the event showing articles of which languages appear over time, revealing intuitive features based on the proximity of the event and unexpectedness of the event. The dataset is available on \href{https://www.kaggle.com/datasets/felixludos/babel-briefings}{Kaggle} and \href{https://huggingface.co/datasets/felixludos/babel-briefings}{HuggingFace} with accompanying \href{https://github.com/felixludos/babel-briefings}{GitHub} code.

arxiv情報

著者 Felix Leeb,Bernhard Schölkopf
発行日 2024-03-28 12:08:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク