要約
この記事では、2019 年 1 月 1 日から 2019 年 12 月 31 日までの間に収集された、階層的なニュース カテゴリを含む 10,917 件のニュース記事のデータセットを紹介します。17 の第 1 レベルのカテゴリと 109 の第 2 レベルのカテゴリを含む階層的な分類法に基づいて、手動で記事にラベルを付けました。
このデータセットを使用して、トピックごとにニュース記事を自動的に分類するための機械学習モデルをトレーニングできます。
このデータセットは、ニュースの構造化、分類、およびリリースされたニュースに基づく将来のイベントの予測に取り組んでいる研究者に役立ちます。
要約(オリジナル)
This article presents a dataset of 10,917 news articles with hierarchical news categories collected between January 1st 2019, and December 31st 2019. We manually labelled the articles based on a hierarchical taxonomy with 17 first-level and 109 second-level categories. This dataset can be used to train machine learning models for automatically classifying news articles by topic. This dataset can be helpful for researchers working on news structuring, classification, and predicting future events based on released news.
arxiv情報
著者 | Alina Petukhova,Nuno Fachada |
発行日 | 2023-03-19 12:10:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google