Mining the Explainability and Generalization: Fact Verification Based on Self-Instruction

要約

商用 LLM に基づくファクトチェックが主流になりました。
これらの方法は高い説明可能性を提供しますが、従来の微調整アプローチと比較すると精度が劣っており、データのセキュリティも大きな懸念事項です。
この論文では、正確さと説明可能性のバランスをとったファクトチェックのための自己指導ベースの微調整アプローチを提案します。
私たちの手法は、データ拡張と改良された DPO 微調整で構成されています。
前者は、まず主張と証拠のペアとラベルに基づいて肯定的な説明と否定的な説明の両方を生成するようにモデルに指示し、カスタマイズされた難易度基準に従ってデータセットをサンプリングします。
後者では、私たちが提案する改良型 DPO を採用し、生成されたサンプルを使用してモデルを微調整します。
最小スケールの LLaMA-7B モデルを微調整し、比較のために 4 つの微調整方法と 3 つの少数ショット学習方法を利用して、挑戦的なファクトチェック データセット FEVEROUS および HOVER で評価します。
実験では、私たちのアプローチが従来の微調整方法と同等、またはそれを上回る精度を維持するだけでなく、流暢な説明テキストを生成できることを実証しました。
また、高い汎化性能も発揮します。
実験で示されているように、私たちの方法はファクトチェックに自己教師あり学習を初めて利用し、LLM の微調整において対照学習と改良された DPO を革新的に組み合わせたものです。

要約(オリジナル)

Fact-checking based on commercial LLMs has become mainstream. Although these methods offer high explainability, it falls short in accuracy compared to traditional fine-tuning approaches, and data security is also a significant concern. In this paper, we propose a self-instruction based fine-tuning approach for fact-checking that balances accuracy and explainability. Our method consists of Data Augmentation and Improved DPO fine-tuning. The former starts by instructing the model to generate both positive and negative explanations based on claim-evidence pairs and labels, then sampling the dataset according to our customized difficulty standards. The latter employs our proposed improved DPO to fine-tune the model using the generated samples. We fine-tune the smallest-scale LLaMA-7B model and evaluate it on the challenging fact-checking datasets FEVEROUS and HOVER, utilizing four fine-tuning methods and three few-shot learning methods for comparison. The experiments demonstrate that our approach not only retains accuracy comparable to, or even surpassing, traditional fine-tuning methods, but also generates fluent explanation text. Moreover, it also exhibit high generalization performance. Our method is the first to leverage self-supervised learning for fact-checking and innovatively combines contrastive learning and improved DPO in fine-tuning LLMs, as shown in the experiments.

arxiv情報

著者 Guangyao Lu,Yulin Liu
発行日 2024-05-21 08:23:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク