Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs

要約

大規模な言語モデル(LLM)は、さまざまなドメインでAIアシスタントを務める際に幻覚(すなわち、不誠実または無意味な情報)を示します。
幻覚には常にLLM応答に真実のコンテンツが付いているため、応答レベルの選好学習を実施する以前の事実のアライメント方法は、トレーニング中に必然的にノイズを導入しました。
したがって、このペーパーでは、MASK-DPOと呼ばれる直接選好最適化(DPO)に基づいて、きめ細かい事実アライメント方法を提案します。
MASK-DPOは、文レベルの事実をマスク信号として組み込むことで、優先サンプルの事実上修正された文からのみ学習し、好みのないサンプルの事実上のコンテンツに対するペナルティを防ぎ、優先学習の曖昧さを解決します。
広範な実験結果は、MASK-DPOがドメイン内およびドメイン外データセットの両方からの質問に対するLLMS応答の事実性を大幅に改善できることを示していますが、これらの質問とそれらに対応するトピックはトレーニング中に見えません。
ANAH列車のセットでのみ訓練されたANAHテストセットのLlAMA3.1-8B-Instructのスコアは、49.19%から77.53%に改善され、Llama3.1-70B-Intruct(53.44%)のスコアを超えていますが、ドメインの生物造影データセットから39.39%の事実上のスコアは改善されています。
さらに、さまざまなトレーニングサンプルスケーリング戦略を使用してMASK-DPOの一般化プロパティを調査し、データセット内のトピックの数をスケーリングすることは、質問の数よりも効果的であることがわかります。
私たちは、この現象の意味について、事実上の整合性がLLMとどのようなものを行っているかを仮定し、それを検証するために概念実証を実施します。
この方法と調査結果が、事実の整合性の拡大に関する将来の研究への道を開くことを願っています。

要約(オリジナル)

Large language models (LLMs) exhibit hallucinations (i.e., unfaithful or nonsensical information) when serving as AI assistants in various domains. Since hallucinations always come with truthful content in the LLM responses, previous factuality alignment methods that conduct response-level preference learning inevitably introduced noises during training. Therefore, this paper proposes a fine-grained factuality alignment method based on Direct Preference Optimization (DPO), called Mask-DPO. Incorporating sentence-level factuality as mask signals, Mask-DPO only learns from factually correct sentences in the preferred samples and prevents the penalty on factual contents in the not preferred samples, which resolves the ambiguity in the preference learning. Extensive experimental results demonstrate that Mask-DPO can significantly improve the factuality of LLMs responses to questions from both in-domain and out-of-domain datasets, although these questions and their corresponding topics are unseen during training. Only trained on the ANAH train set, the score of Llama3.1-8B-Instruct on the ANAH test set is improved from 49.19% to 77.53%, even surpassing the score of Llama3.1-70B-Instruct (53.44%), while its FactScore on the out-of-domain Biography dataset is also improved from 30.29% to 39.39%. We further study the generalization property of Mask-DPO using different training sample scaling strategies and find that scaling the number of topics in the dataset is more effective than the number of questions. We provide a hypothesis of what factual alignment is doing with LLMs, on the implication of this phenomenon, and conduct proof-of-concept experiments to verify it. We hope the method and the findings pave the way for future research on scaling factuality alignment.

arxiv情報

著者 Yuzhe Gu,Wenwei Zhang,Chengqi Lyu,Dahua Lin,Kai Chen
発行日 2025-03-04 18:20:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク