要約
大規模言語モデル (LLM) は、外部情報をコンテキストとして拡張することがよくありますが、この外部情報は不正確である場合や、意図的に誤解を招く場合もあります。
私たちは、堅牢な LLM は状況に応じた忠実性を実証し、内部の知識と外部のコンテキストに対する信頼に基づいて外部情報に対する信頼を動的に調整する必要があると主張します。
この機能のベンチマークを行うために、Reddit の投稿から得た実際の誤ったコンテキストを特徴とする RedditQA と呼ばれる新しく作成されたデータセットを含む、いくつかの QA データセットにわたって LLM を評価しました。
私たちは、正しいコンテキストと誤ったコンテキストの両方が提供された場合、オープンソース モデルとプロプライエタリ モデルの両方が、事実の正確さに関係なく、外部情報に過度に依存する傾向があることを示しました。
状況に応じた忠実性を強化するために、我々は、Self-Guided Confidence Reasoning (SCR) と Rule-Based Confidence Reasoning (RCR) という 2 つのアプローチを提案します。
SCR を使用すると、モデルが自身の内部知識と比較した外部情報の信頼度に自己アクセスして、最も正確な答えを生成できるようになります。
対照的に、RCR は LLM から明示的な信頼信号を抽出し、事前定義されたルールを使用して最終的な答えを決定します。
私たちの結果は、GPT-4o や GPT-4o mini などの強力な推論機能を備えた LLM の場合、SCR が RCR を上回り、直接入力拡張ベースラインと比較して最大 24.2% の改善を達成したことを示しています。
逆に、Llama-3-8B のような小型モデルの場合、RCR は SCR よりも優れています。
私たちが提案する Confidence Reasoning Direct Preference Optimization (CR-DPO) メソッドを使用して SCR を微調整すると、目に見えるデータセットと見えないデータセットの両方でパフォーマンスが向上し、Llama-3-8B で平均 8.9% の改善が得られます。
定量的な結果に加えて、SCR と RCR の相対的な強みについての洞察も提供します。
私たちの調査結果は、LLM の状況に応じた忠実性を向上させるための有望な手段を浮き彫りにしています。
データとコードは公開されています。
要約(オリジナル)
Large Language Models (LLMs) are often augmented with external information as contexts, but this external information can sometimes be inaccurate or even intentionally misleading. We argue that robust LLMs should demonstrate situated faithfulness, dynamically calibrating their trust in external information based on their confidence in the internal knowledge and the external context. To benchmark this capability, we evaluate LLMs across several QA datasets, including a newly created dataset called RedditQA featuring in-the-wild incorrect contexts sourced from Reddit posts. We show that when provided with both correct and incorrect contexts, both open-source and proprietary models tend to overly rely on external information, regardless of its factual accuracy. To enhance situated faithfulness, we propose two approaches: Self-Guided Confidence Reasoning (SCR) and Rule-Based Confidence Reasoning (RCR). SCR enables models to self-access the confidence of external information relative to their own internal knowledge to produce the most accurate answer. RCR, in contrast, extracts explicit confidence signals from the LLM and determines the final answer using predefined rules. Our results show that for LLMs with strong reasoning capabilities, such as GPT-4o and GPT-4o mini, SCR outperforms RCR, achieving improvements of up to 24.2% over a direct input augmentation baseline. Conversely, for a smaller model like Llama-3-8B, RCR outperforms SCR. Fine-tuning SCR with our proposed Confidence Reasoning Direct Preference Optimization (CR-DPO) method improves performance on both seen and unseen datasets, yielding an average improvement of 8.9% on Llama-3-8B. In addition to quantitative results, we offer insights into the relative strengths of SCR and RCR. Our findings highlight promising avenues for improving situated faithfulness in LLMs. The data and code are released.
arxiv情報
著者 | Yukun Huang,Sanxing Chen,Hongyi Cai,Bhuwan Dhingra |
発行日 | 2024-10-18 17:59:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google