GRATH: Gradual Self-Truthifying for Large Language Models

要約

大規模言語モデル (LLM) は現実世界のアプリケーションに導入されることが増えているため、真実性が最も重要です。
しかし、TruthfulQA などのベンチマークでのパフォーマンスがそれほど高くないことからもわかるように、既存の LLM は依然として真実のコンテンツを生成することに苦労しています。
この問題に対処するために、LLM の真実性を強化する新しい後処理方法である GRadual self-truTHifying (GRADual self-truTHifying) (GRATH) を提案します。
GRATH は、ドメイン外の質問プロンプトを利用して、質問とその正解と不正解を含むペアごとの真実性トレーニング データを生成し、直接優先最適化 (DPO) によってモデルを最適化して、回答ペア間の真実性の違いから学習します。
GRATH は、真実性データを反復的に改良してモデルを更新し、自己監視型の方法でモデルの真実性を段階的に向上させます。
経験的に、さまざまな 7B-LLM を使用して GRATH を評価し、ベンチマーク データセット上の同様またはさらに大きなサイズの LLM と比較します。
私たちの結果は、GRATH が他のコア機能を損なうことなく LLM の真実性を効果的に向上させることを示しています。
特に、GRATH は TruthfulQA で MC1 精度 54.71%、MC2 精度 69.10% という最先端のパフォーマンスを達成しており、これは 70B-LLM の精度をも上回ります。

要約(オリジナル)

Truthfulness is paramount for large language models (LLMs) as they are increasingly deployed in real-world applications. However, existing LLMs still struggle with generating truthful content, as evidenced by their modest performance on benchmarks like TruthfulQA. To address this issue, we propose GRAdual self-truTHifying (GRATH), a novel post-processing method to enhance truthfulness of LLMs. GRATH utilizes out-of-domain question prompts to generate pairwise truthfulness training data with each pair containing a question and its correct and incorrect answers, and then optimizes the model via direct preference optimization (DPO) to learn from the truthfulness difference between answer pairs. GRATH iteratively refines truthfulness data and updates the model, leading to a gradual improvement in model truthfulness in a self-supervised manner. Empirically, we evaluate GRATH using different 7B-LLMs and compare with LLMs with similar or even larger sizes on benchmark datasets. Our results show that GRATH effectively improves LLMs’ truthfulness without compromising other core capabilities. Notably, GRATH achieves state-of-the-art performance on TruthfulQA, with MC1 accuracy of 54.71% and MC2 accuracy of 69.10%, which even surpass those on 70B-LLMs.

arxiv情報

著者 Weixin Chen,Dawn Song,Bo Li
発行日 2024-01-31 06:44:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク