Cross-Lingual Learning vs. Low-Resource Fine-Tuning: A Case Study with Fact-Checking in Turkish

要約

ソーシャルメディアプラットフォームを通じた誤った情報の急速な拡散により、世論への影響に関する懸念が生じています。
誤った情報は他の言語にも蔓延していますが、この分野の研究の大部分は英語に集中しています。
したがって、トルコ語を含む他の言語のデータセットは不足しています。
この懸念に対処するために、3,238 件の実世界の請求から構成される FCTR データセットを導入しました。
このデータセットは複数のドメインにまたがっており、トルコの 3 つの事実確認組織から収集された証拠が組み込まれています。
さらに、特にトルコ語に焦点を当てて、リソースの少ない言語に対する言語間転移学習の有効性を評価することを目指しています。
このコンテキストにおける大規模言語モデルのインコンテキスト学習 (ゼロショットおよび少数ショット) パフォーマンスを実証します。
実験結果は、このデータセットがトルコ語での研究を前進させる可能性があることを示しています。

要約(オリジナル)

The rapid spread of misinformation through social media platforms has raised concerns regarding its impact on public opinion. While misinformation is prevalent in other languages, the majority of research in this field has concentrated on the English language. Hence, there is a scarcity of datasets for other languages, including Turkish. To address this concern, we have introduced the FCTR dataset, consisting of 3238 real-world claims. This dataset spans multiple domains and incorporates evidence collected from three Turkish fact-checking organizations. Additionally, we aim to assess the effectiveness of cross-lingual transfer learning for low-resource languages, with a particular focus on Turkish. We demonstrate in-context learning (zero-shot and few-shot) performance of large language models in this context. The experimental results indicate that the dataset has the potential to advance research in the Turkish language.

arxiv情報

著者 Recep Firat Cekinel,Pinar Karagoz,Cagri Coltekin
発行日 2024-03-22 15:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク