LITO: Learnable Intervention for Truthfulness Optimization

要約

大規模言語モデル (LLM) は、長文で一貫したテキストを生成できますが、依然として事実を幻覚することが多いため、信頼性が制限されます。
この問題に対処するために、学習された「真実の方向」に向けて LLM 表現をシフトすることにより、真実の応答を引き出す推論時間手法が提案されています。
ただし、真実の指示を同じ強度で適用しても、異なる質問のコンテキスト全体に一般化することはできません。
私たちは、特定の状況に合わせた最適な介入強度を自動的に識別する、真実性の最適化のための学習可能な介入手法である LITO を提案します。
LITO は、介入強度のレベルの増加に基づいて一連のモデル生成を調査します。
最も正確な応答を選択するか、予測の不確実性が非常に高い場合は応答を拒否します。
複数の LLM と質問応答データセットの実験では、LITO がタスクの精度を維持しながら真実性を向上させることが実証されています。
LITO の適応性は、万能の介入ベースのソリューションの問題に対処し、モデルに自信がある場合にのみ内部知識を反映することでモデルの真実性を最大化します。

要約(オリジナル)

Large language models (LLMs) can generate long-form and coherent text, but they still frequently hallucinate facts, thus limiting their reliability. To address this issue, inference-time methods that elicit truthful responses have been proposed by shifting LLM representations towards learned ‘truthful directions’. However, applying the truthful directions with the same intensity fails to generalize across different question contexts. We propose LITO, a Learnable Intervention method for Truthfulness Optimization that automatically identifies the optimal intervention intensity tailored to a specific context. LITO explores a sequence of model generations based on increasing levels of intervention intensities. It selects the most accurate response or refuses to answer when the predictions are highly uncertain. Experiments on multiple LLMs and question-answering datasets demonstrate that LITO improves truthfulness while preserving task accuracy. The adaptive nature of LITO counters issues with one-size-fits-all intervention-based solutions, maximizing model truthfulness by reflecting internal knowledge only when the model is confident.

arxiv情報

著者 Farima Fatahi Bayat,Xin Liu,H. V. Jagadish,Lu Wang
発行日 2024-05-01 03:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク