要約
この論文では、2021年の東京オリンピックをカバーする多言語ニュース記事のデータセットを紹介します。
合計10,940のニュース記事が1,918の異なる出版社から集められ、2021年のオリンピックの1,350のサブイベントをカバーし、2021年7月1日と2021年8月14日の間に出版されました。これらの記事は、異なる言語家族の9つの言語で書かれています。
さまざまなスクリプト。
データセットを作成するために、RAWニュース記事は、ニュース記事を収集および分析するサービスを介して最初に取得されました。
次に、記事はオンラインクラスタリングアルゴリズムを使用してグループ化され、各グループには同じサブイベントに関する記事が含まれています。
最後に、グループに手動で注釈が付けられ、評価されました。
このデータセットの開発は、限られたデータセットが利用可能な多言語ニュースクラスタリングアルゴリズムのパフォーマンスを評価するためのリソースを提供することを目的としています。
また、2021年の東京オリンピックのダイナミクスとイベントをさまざまな視点から分析するためにも使用できます。
データセットはCSV形式で利用可能で、Clarin.siリポジトリからアクセスできます。
要約(オリジナル)
In this paper, we introduce a dataset of multilingual news articles covering the 2021 Tokyo Olympics. A total of 10,940 news articles were gathered from 1,918 different publishers, covering 1,350 sub-events of the 2021 Olympics, and published between July 1, 2021, and August 14, 2021. These articles are written in nine languages from different language families and in different scripts. To create the dataset, the raw news articles were first retrieved via a service that collects and analyzes news articles. Then, the articles were grouped using an online clustering algorithm, with each group containing articles reporting on the same sub-event. Finally, the groups were manually annotated and evaluated. The development of this dataset aims to provide a resource for evaluating the performance of multilingual news clustering algorithms, for which limited datasets are available. It can also be used to analyze the dynamics and events of the 2021 Tokyo Olympics from different perspectives. The dataset is available in CSV format and can be accessed from the CLARIN.SI repository.
arxiv情報
著者 | Erik Novak,Erik Calcina,Dunja Mladenić,Marko Grobelnik |
発行日 | 2025-02-10 16:38:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google