要約
大規模な言語モデル(LLM)には、多くの場合、パラメーターにエンコードされていない情報を提供したり、幻覚を軽減したりするために、外部の知識が補完されます。
そのような場合、提供された外部コンテキストで応答を接地することにより、モデルが応答を生成すると予想されます。
ただし、以前の作業では、推論時間に単純にアプローしても、根拠のある世代が保証されないことが示されています。
これに対処するために、コンテキストに情報に基づいた接地監督(Cings)を提案します。これは、応答トークンでのみ損失を計算し、コンテキストをマスキングすると同時に、モデルが関連するコンテキストでトレーニングされるトレーニング後の監督を提案します。
私たちの実験は、Cingsで訓練されたモデルが、標準的な命令チューニングモデルと比較して、テキストドメインと視覚ドメインの両方でより強い接地を示すことを示しています。
テキストドメインでは、Cingsは11の情報を求めるデータセットで他のトレーニング方法を上回り、推論時間の接地技術を補完します。
Vision-Language Domainでは、Vision-Language ModelのLLMバックボーンをCings-Trainedモデルに置き換えると、4つのベンチマーク全体で幻覚が減少し、生成された応答全体で事実上の一貫性を維持します。
この改善された接地は、一般的な下流のパフォーマンスで劣化することなく発生します。
最後に、Cingsの強化された接地の根底にあるメカニズムを分析し、モデルの事前の知識と行動の変化を誘発し、暗黙的に外部コンテキストへのより大きな依存を促進することがわかります。
要約(オリジナル)
Large language models (LLMs) are often supplemented with external knowledge to provide information not encoded in their parameters or to reduce hallucination. In such cases, we expect the model to generate responses by grounding its response in the provided external context. However, prior work has shown that simply appending context at inference time does not ensure grounded generation. To address this, we propose Context-INformed Grounding Supervision (CINGS), a post-training supervision in which the model is trained with relevant context prepended to the response, while computing the loss only over the response tokens and masking out the context. Our experiments demonstrate that models trained with CINGS exhibit stronger grounding in both textual and visual domains compared to standard instruction-tuned models. In the text domain, CINGS outperforms other training methods across 11 information-seeking datasets and is complementary to inference-time grounding techniques. In the vision-language domain, replacing a vision-language model’s LLM backbone with a CINGS-trained model reduces hallucinations across four benchmarks and maintains factual consistency throughout the generated response. This improved grounding comes without degradation in general downstream performance. Finally, we analyze the mechanism underlying the enhanced grounding in CINGS and find that it induces a shift in the model’s prior knowledge and behavior, implicitly encouraging greater reliance on the external context.
arxiv情報
著者 | Hyunji Lee,Seunghyun Yoon,Yunjae Won,Hanseok Oh,Geewook Kim,Trung Bui,Franck Dernoncourt,Elias Stengel-Eskin,Mohit Bansal,Minjoon Seo |
発行日 | 2025-06-18 14:13:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google