Aligning Large Language Models for Faithful Integrity Against Opposing Argument

要約

大規模言語モデル(LLM)は、複雑な推論タスクにおいて素晴らしい能力を発揮してきた。しかし、LLMは会話中に、たとえ元の発言が正しくても、不誠実な議論に惑わされやすい。このため、我々はLLMの忠実な完全性を維持する問題を研究する。これは、LLMが対立する議論に直面しても自分の忠実な発言を守り、忠実な議論を提示されたときに自分の誤った発言を修正できるようにすることを含む。本研究では、LLMの応答を忠実に整合させることを目的としたAlignment for Faithful Integrity with Confidence Estimation (AFICE)と名付けられた新しいフレームワークを提案する。具体的には、AFICEはまず、特定の文脈を与えられたLLMによって生成される各回答の不確実性を推定するための二者間信頼度推定(BCE)アプローチを設計し、これは同時に、デコード中の内部状態に基づく質問に対するモデルの信頼度と、累積確率比に基づく回答に対するモデルの信頼度を推定する。BCEを用いて、文脈、元の文、議論からなる会話嗜好データセットを構築し、これを直接嗜好最適化(DPO)を用いて忠実な完全性のためにLLMを調整するために採用する。様々なベンチマークを用いた広範な実験結果から、LLMが対立する議論に遭遇した際に忠実な応答を維持する能力が大幅に向上することが実証され、複雑な対話環境におけるLLMの実用性と信頼性の両方が保証される。コードとデータはhttps://github.com/zhaoy777/AFICE.git。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive capabilities in complex reasoning tasks. However, they can be easily misled by unfaithful arguments during conversations, even when their original statements are correct. To this end, we investigate the problem of maintaining faithful integrity in LLMs. This involves ensuring that LLMs adhere to their faithful statements in the face of opposing arguments and are able to correct their incorrect statements when presented with faithful arguments. In this work, we propose a novel framework, named Alignment for Faithful Integrity with Confidence Estimation (AFICE), which aims to align the LLM responses with faithful integrity. Specifically, AFICE first designs a Bilateral Confidence Estimation (BCE) approach for estimating the uncertainty of each response generated by the LLM given a specific context, which simultaneously estimate the model’s confidence to the question based on the internal states during decoding as well as to the answer based on cumulative probability ratios. With the BCE, we construct a conversational preference dataset composed of context, original statement, and argument, which is adopted for aligning the LLM for faithful integrity using Direct Preference Optimization (DPO). Extensive experimental results on a wide range of benchmarks demonstrate significant improvements in the LLM’s ability to maintain faithful responses when encountering opposing arguments, ensuring both the practical utility and trustworthiness of LLMs in complex interactive settings. Code and data will be released via https://github.com/zhaoy777/AFICE.git

arxiv情報

著者 Yong Zhao,Yang Deng,See-Kiong Ng,Tat-Seng Chua
発行日 2025-01-02 16:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, I.2.7 パーマリンク