要約
この論文では、モデルが誤った応答または無関係な応答を生成する幻覚効果に対処する際に、大規模マルチモーダル モデル (LMM) の信頼性を高める方法を紹介します。
追加の命令チューニング パラダイムを使用せずに、慎重に選択された、ずれた反事実キーワードを使用して、反事実の思考を LMM に埋め込む新しい方法である反事実インセプションを導入します。
この方法は、人間が別の現実と結果を考慮する認知プロセスである反事実的思考の概念に基づいています。
この人間らしい推論メカニズムを LMM に適用することで、幻覚効果を軽減し、モデルの信頼性を向上させることを目指しています。
また、視覚的および言語的コンテキストを同時に考慮しながら、LMM への反事実的思考を引き起こすための最適な反事実キーワードを選択するための厳密なフレームワークであるデュアルモダリティ検証プロセス (DVP) も提案します。
オープンソースモデルと独自モデルの両方を含むさまざまな LMM にわたる広範な実験により、私たちの方法がさまざまなデータセットにわたって幻覚現象を大幅に軽減することが裏付けられています。
要約(オリジナル)
This paper presents a way of enhancing the reliability of Large Multimodal Models (LMMs) in addressing hallucination effects, where models generate incorrect or unrelated responses. Without additional instruction tuning paradigm, we introduce Counterfactual Inception, a novel method that implants counterfactual thoughts into LMMs using carefully chosen, misaligned counterfactual keywords. This method is grounded in the concept of counterfactual thinking, a cognitive process where humans consider alternative realities and outcomes. By applying this human-like reasoning mechanism to LMMs, we aim to reduce hallucination effects and improve the models’ trustworthiness. We also propose Dual-modality Verification Process (DVP), a rigorous framework for selecting optimal counterfactual keywords to trigger counterfactual thinking into LMMs, concurrently considering visual and linguistic context. Our extensive experiments across various LMMs, including both open-source and proprietary models, corroborate that our method significantly mitigates hallucination phenomena across different datasets.
arxiv情報
著者 | Junho Kim,Yeon Ju Kim,Yong Man Ro |
発行日 | 2024-03-20 11:27:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google