Surprising Efficacy of Fine-Tuned Transformers for Fact-Checking over Larger Language Models

要約

このペーパーでは、90 を超える言語をカバーする、現実世界のコンテキストでのエンドツーエンドのファクトチェック パイプラインの確立に関連する課題を検討します。
当社の実世界の実験ベンチマークは、クレーム検出や真実性予測などの事実確認タスクに特化した Transformer モデルの微調整が、GPT-4、GPT-3.5-Turbo、および GPT-4、GPT-3.5-Turbo、および
ミストラル-7b。
ただし、LLM は証拠検索のための質問分解などの生成タスクに優れていることを示します。
広範な評価を通じて、多言語設定および数値を含む複雑なクレームにおける事実確認のための微調整されたモデルの有効性を示します。

要約(オリジナル)

In this paper, we explore the challenges associated with establishing an end-to-end fact-checking pipeline in a real-world context, covering over 90 languages. Our real-world experimental benchmarks demonstrate that fine-tuning Transformer models specifically for fact-checking tasks, such as claim detection and veracity prediction, provide superior performance over large language models (LLMs) like GPT-4, GPT-3.5-Turbo, and Mistral-7b. However, we illustrate that LLMs excel in generative tasks such as question decomposition for evidence retrieval. Through extensive evaluation, we show the efficacy of fine-tuned models for fact-checking in a multilingual setting and complex claims that include numerical quantities.

arxiv情報

著者 Vinay Setty
発行日 2024-04-30 08:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク