MultiClaimNet: A Massively Multilingual Dataset of Fact-Checked Claim Clusters

要約

事実確認の文脈では、クレームはさまざまなプラットフォームや異なる言語で繰り返されることが多く、この冗長性を減らすプロセスから恩恵を受けることができます。
以前の事実確認されたクレームの取得が解決策として調査されていますが、未検証の請求の数が増え、事実確認されたデータベースのサイズが拡大すると、代替のより効率的なソリューションが必要です。
有望な解決策は、同じ根本的な事実をクラスターに議論して、請求の検索と検証を改善するグループの主張です。
ただし、クレームクラスタリングに関する研究は、適切なデータセットの欠如によって妨げられています。
このギャップを埋めるために、多様なトピック全体に86の言語でクレームを含む3つの多言語クレームクラスターデータセットのコレクションである\ textit {multiclaimnet}を紹介します。
クレームクラスターは、手動介入が限られているクレームマッチングペアから自動的に形成されます。
2つの既存のクレームマッチングデータセットを活用して、\ textIT {multiclaimnet}内に小さなデータセットを形成します。
より大きなデータセットを構築するために、おおよその最近傍の検索を含むアプローチを提案し、検証して、候補者の請求ペアと、大規模な言語モデルを使用してクレームの類似性の自動注釈を形成します。
この大きなデータセットには、78の言語で書かれた85.3Kのファクトチェックされたクレームが含まれています。
さらに、さまざまなクラスタリング技術を使用して広範な実験を実施し、ベースラインのパフォーマンスを確立するために埋め込みモデルを埋め込みます。
データセットと調査結果は、効率的な事実確認パイプラインに貢献するスケーラブルなクレームクラスタリングの強力な基盤を提供します。

要約(オリジナル)

In the context of fact-checking, claims are often repeated across various platforms and in different languages, which can benefit from a process that reduces this redundancy. While retrieving previously fact-checked claims has been investigated as a solution, the growing number of unverified claims and expanding size of fact-checked databases calls for alternative, more efficient solutions. A promising solution is to group claims that discuss the same underlying facts into clusters to improve claim retrieval and validation. However, research on claim clustering is hindered by the lack of suitable datasets. To bridge this gap, we introduce \textit{MultiClaimNet}, a collection of three multilingual claim cluster datasets containing claims in 86 languages across diverse topics. Claim clusters are formed automatically from claim-matching pairs with limited manual intervention. We leverage two existing claim-matching datasets to form the smaller datasets within \textit{MultiClaimNet}. To build the larger dataset, we propose and validate an approach involving retrieval of approximate nearest neighbors to form candidate claim pairs and an automated annotation of claim similarity using large language models. This larger dataset contains 85.3K fact-checked claims written in 78 languages. We further conduct extensive experiments using various clustering techniques and sentence embedding models to establish baseline performance. Our datasets and findings provide a strong foundation for scalable claim clustering, contributing to efficient fact-checking pipelines.

arxiv情報

著者 Rrubaa Panchendrarajan,Rubén Míguez,Arkaitz Zubiaga
発行日 2025-03-28 09:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク