SPICED: News Similarity Detection Dataset with Multiple Topics and Complexity Levels

要約

報道機関の急増により、ユーザーエクスペリエンスを向上させるために、ニュース記事内の冗長な情報を検出できるインテリジェントシステムの需要が高まっています。
ただし、ニュースの異質な性質により、これらのシステムでは誤った結果が得られる可能性があります。2 つのニュースが両方とも政治に関するものであるかどうかなどの単純なヒューリスティックは、強力ではあるが欺瞞的な下流パフォーマンスを提供する可能性があります。
ニュースの類似性データセットをトピックに分割すると、より狭い領域で顕著な特徴を区別する方法をモデルに学習させることにより、これらのモデルのトレーニングが改善されます。
ただし、これにはトピック固有のデータセットが存在する必要がありますが、現在はデータセットが不足しています。
この記事では、犯罪と法律、文化とエンターテイメント、災害と事故、経済とビジネス、政治と紛争、科学とテクノロジー、スポーツの 7 つのトピックを含む、同様のニュースの新しいデータセット SPICED を提案します。
さらに、ニュース類似性検出タスク用に特別に設計された 4 つの異なる複雑さのレベルを示します。
MinHash、BERT、SBERT、および SimCSE モデルを使用して、作成されたデータセットのベンチマークを実行しました。

要約(オリジナル)

The proliferation of news media outlets has increased the demand for intelligent systems capable of detecting redundant information in news articles in order to enhance user experience. However, the heterogeneous nature of news can lead to spurious findings in these systems: Simple heuristics such as whether a pair of news are both about politics can provide strong but deceptive downstream performance. Segmenting news similarity datasets into topics improves the training of these models by forcing them to learn how to distinguish salient characteristics under more narrow domains. However, this requires the existence of topic-specific datasets, which are currently lacking. In this article, we propose a novel dataset of similar news, SPICED, which includes seven topics: Crime & Law, Culture & Entertainment, Disasters & Accidents, Economy & Business, Politics & Conflicts, Science & Technology, and Sports. Futhermore, we present four different levels of complexity, specifically designed for news similarity detection task. We benchmarked the created datasets using MinHash, BERT, SBERT, and SimCSE models.

arxiv情報

著者 Elena Shushkevich,Long Mai,Manuel V. Loureiro,Steven Derby,Tri Kurniawan Wijaya
発行日 2024-08-23 08:58:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク