Lost in Translation, Found in Spans: Identifying Claims in Multilingual Social Media

要約

クレーム スパン識別 (CSI) はファクト チェック パイプラインの重要なステップであり、ソーシャル メディア投稿内でチェックに値する主張や主張を含むテキスト セグメントを特定することを目的としています。
ジャーナリストや人間のファクトチェッカーにとって重要であるにもかかわらず、この問題は依然として十分に研究されておらず、これまでのところ、このテーマに関する研究は英語にのみ焦点を当てていることがほとんどありません。
ここでは、インドの 5 つの言語と英語で多数のソーシャル メディア プラットフォームから収集された 7,000 件の現実世界の申し立てで構成される新しいデータセット X-CLAIM を作成することで、このギャップを埋めることを目指しています。
私たちは、最先端のエンコーダー専用言語モデル (XLM-R など) を使用した強力なベースラインを報告し、ゼロショット転送やトレーニングなどの代替言語間転送方法よりも複数言語でのトレーニングの利点を実証します。
英語などの高リソース言語からの翻訳されたデータ。
X-CLAIM データセットでプロンプト手法を使用して GPT シリーズの生成大規模言語モデルを評価したところ、低リソース言語の小規模なエンコーダーのみの言語モデルよりもパフォーマンスが劣ることがわかりました。

要約(オリジナル)

Claim span identification (CSI) is an important step in fact-checking pipelines, aiming to identify text segments that contain a checkworthy claim or assertion in a social media post. Despite its importance to journalists and human fact-checkers, it remains a severely understudied problem, and the scarce research on this topic so far has only focused on English. Here we aim to bridge this gap by creating a novel dataset, X-CLAIM, consisting of 7K real-world claims collected from numerous social media platforms in five Indian languages and English. We report strong baselines with state-of-the-art encoder-only language models (e.g., XLM-R) and we demonstrate the benefits of training on multiple languages over alternative cross-lingual transfer methods such as zero-shot transfer, or training on translated data, from a high-resource language such as English. We evaluate generative large language models from the GPT series using prompting methods on the X-CLAIM dataset and we find that they underperform the smaller encoder-only language models for low-resource languages.

arxiv情報

著者 Shubham Mittal,Megha Sundriyal,Preslav Nakov
発行日 2023-10-27 15:28:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク