Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions

要約

マルチモーダル大規模言語モデル (MLLM) における幻覚は、実際の応用を妨げます。
これに対処するために、我々は拡大鏡プロンプト (MagPrompt) を提案します。これは、非常に簡単な指示で MLLM の幻覚に対処するためのシンプルかつ効果的な方法です。
MagPrompt は、次の 2 つの重要な原則に基づいており、さまざまな効果的なプロンプトの設計をガイドし、堅牢性を実証しています。 (1) MLLM は画像にもっと重点を置く必要があります。
(2) 画像とモデルの内部知識の間に矛盾がある場合、MLLM は画像を優先する必要があります。
MagPrompt はトレーニング不要で、GPT-4o や Gemini-pro などのオープンソースおよびクローズドソース モデルに適用できます。
これは多くのデータセットで良好なパフォーマンスを発揮し、その有効性は VCD のようなより複雑な方法と同等かそれ以上です。
さらに、当社の即時設計原則と実験分析は、マルチモーダル幻覚に関する貴重な洞察を提供します。

要約(オリジナル)

Hallucinations in multimodal large language models (MLLMs) hinder their practical applications. To address this, we propose a Magnifier Prompt (MagPrompt), a simple yet effective method to tackle hallucinations in MLLMs via extremely simple instructions. MagPrompt is based on the following two key principles, which guide the design of various effective prompts, demonstrating robustness: (1) MLLMs should focus more on the image. (2) When there are conflicts between the image and the model’s inner knowledge, MLLMs should prioritize the image. MagPrompt is training-free and can be applied to open-source and closed-source models, such as GPT-4o and Gemini-pro. It performs well across many datasets and its effectiveness is comparable or even better than more complex methods like VCD. Furthermore, our prompt design principles and experimental analyses provide valuable insights into multimodal hallucination.

arxiv情報

著者 Yuhan Fu,Ruobing Xie,Jiazhen Liu,Bangxiang Lan,Xingwu Sun,Zhanhui Kang,Xirong Li
発行日 2024-10-15 15:39:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク