Beyond Under-Alignment: Atomic Preference Enhanced Factuality Tuning for Large Language Models

要約

大規模言語モデル (LLM) は目覚ましい成功を収めていますが、依然として事実に反する応答、つまり幻覚として知られる現象を生成する傾向があります。
最近の傾向は、事実と一致するようにモデルを微調整するために嗜好学習を使用することです。
ただし、既存の研究は主にドメイン内 (ID) データセットの微調整されたモデルを評価しており、ドメイン外 (OOD) データセットの事実はまだ調査されていません。
この論文では、さまざまな選好学習アルゴリズムによって調整されたさまざまなモデルの事実性の包括的な評価を実施し、OOD データセットでのパフォーマンスが最小限に増加するか減少することを実証します。
続いて、チューニング前後のモデルのトークン分布シフトを分析することで、分布シフトの下でモデルが事実を維持できない主な原因は \textbf{over-alignment} ではなく \textbf{under-alignment} であることを明らかにしました。

最後に、モデルの事実性の認識を強化するフレームワークである \textbf{APEFT} (\textbf{A}tomic \textbf{P}reference \textbf{E}nhanced \textbf{F}actuality \textbf{T}uning) を提案します。
個々の事実の粒度で。
広範な実験により、APEFT が ID と OOD データセットの両方でモデルのパフォーマンスを平均 $\boldsymbol{3.45\%}$ 向上させ、非常に効果的であることが実証されました。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable success but still tend to generate factually erroneous responses, a phenomenon known as hallucination. A recent trend is to use preference learning to fine-tune models to align with factuality. However, existing work primarily evaluates fine-tuned models on in-domain (ID) datasets and the factuality on out-of-domain (OOD) datasets remains underexplored. In this paper, we conduct a comprehensive evaluation of the factuality of different models tuned by various preference learning algorithms and demonstrate that their performance on OOD datasets either increases minimally or decreases. Subsequently, we reveal that the main cause of model’s failure to uphold factuality under a distribution shift is \textbf{under-alignment}, rather than \textbf{over-alignment}, by analyzing the token distribution shift of the models before and after tuning. Finally, we propose \textbf{APEFT} (\textbf{A}tomic \textbf{P}reference \textbf{E}nhanced \textbf{F}actuality \textbf{T}uning), a framework that enhances model’s awareness of factuality at the granularity of individual facts. Extensive experiments demonstrate that APEFT improves model performance by an average of $\boldsymbol{3.45\%}$ on both ID and OOD datasets, which is highly effective.

arxiv情報

著者 Hongbang Yuan,Yubo Chen,Pengfei Cao,Zhuoran Jin,Kang Liu,Jun Zhao
発行日 2024-06-27 12:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク