Is it indeed bigger better? The comprehensive study of claim detection LMs applied for disinformation tackling

要約

この研究では、チェック価値のあるクレームの検出タスクにおける (1) 微調整されたモデルと (2) 非常に大規模な言語モデルのパフォーマンスを比較します。
比較の目的で、さまざまなソースとスタイルのテキストで構成される多言語で複数のトピックのデータセットを構成しました。
これに基づいて、最も一般的な多言語および複数トピックのクレーム検出器を決定するためにベンチマーク分析を実行しました。
私たちは、チェック価値のあるクレーム検出タスクで 3 つの最先端のモデルを選択し、それらを微調整しました。
さらに、微調整を行わずに 3 つの最先端の非常に大規模な言語モデルを選択しました。
私たちは、広範な実験と評価を通じて、モデルを多言語設定に適応させるためにモデルに変更を加えました。
ドメイン内およびクロスドメインのシナリオで、精度、再現率、F1 スコアの観点からすべてのモデルのパフォーマンスを評価しました。
私たちの結果は、自然言語処理の分野における技術の進歩にも関わらず、チェック価値のあるクレーム検出のタスク用に微調整されたモデルが、依然としてクロスドメイン設定におけるゼロショットアプローチよりも優れていることを示しています。

要約(オリジナル)

This study compares the performance of (1) fine-tuned models and (2) extremely large language models on the task of check-worthy claim detection. For the purpose of the comparison we composed a multilingual and multi-topical dataset comprising texts of various sources and styles. Building on this, we performed a benchmark analysis to determine the most general multilingual and multi-topical claim detector. We chose three state-of-the-art models in the check-worthy claim detection task and fine-tuned them. Furthermore, we selected three state-of-the-art extremely large language models without any fine-tuning. We made modifications to the models to adapt them for multilingual settings and through extensive experimentation and evaluation. We assessed the performance of all the models in terms of accuracy, recall, and F1-score in in-domain and cross-domain scenarios. Our results demonstrate that despite the technological progress in the area of natural language processing, the models fine-tuned for the task of check-worthy claim detection still outperform the zero-shot approaches in a cross-domain settings.

arxiv情報

著者 Martin Hyben,Sebastian Kula,Ivan Srba,Robert Moro,Jakub Simko
発行日 2023-11-10 15:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク