Do More Details Always Introduce More Hallucinations in LVLM-based Image Captioning?

要約

Large Vision-Language Model (LVLM) は、視覚的コンテキストと言語コンテキストを統合して詳細なコンテンツを生成することに優れており、画像キャプションなどのアプリケーションを容易にします。
ただし、LVLM を使用して説明を生成すると、出力テキストが入力画像内の実際のオブジェクトを誤って表現するオブジェクト幻覚 (OH) という課題に直面することがよくあります。
これまでの研究では、OH の発生はより詳細な情報が含まれていることが原因であると考えられていましたが、今回の研究では既存のメトリクスに技術的な欠陥が見つかり、モデルの評価と OH に関する結論の信頼性が低くなりました。
これは、「LVLM ベースの画像キャプションでは、詳細が増えると常に幻覚が増えるのか?」という疑問に関する議論を引き起こしました。
この論文では、新しい復号戦略である微分ビーム復号 (DBD) と、信頼できる新しい評価指標セットである CLIP-Precision、CLIP-Recall、および CLIP-F1 を提案することで、この議論に対処します。
DBD は、視覚入力に隠された豊富な情報を、ユニットファクトと呼ばれる個別の言語表現に並行してデコードします。
このデコードは、並行検索と候補スクリーニングをガイドする適切に設計された差分スコアによって実現されます。
次に、選択されたユニット ファクトが集約されて、最終的なキャプションが生成されます。
私たちが提案するメトリクスは、グラウンドトゥルース画像領域の埋め込みグループと生成されたテキスト パーティションを比較することにより、画像キャプションの包括性と精度を評価します。
Visual Genome データセットに関する広範な実験により、私たちのアプローチの有効性が検証され、低い幻覚レベルを維持しながら詳細な説明が生成されることが実証されました。

要約(オリジナル)

Large Vision-Language Models (LVLMs) excel in integrating visual and linguistic contexts to produce detailed content, facilitating applications such as image captioning. However, using LVLMs to generate descriptions often faces the challenge of object hallucination (OH), where the output text misrepresents actual objects in the input image. While previous studies attribute the occurrence of OH to the inclusion of more details, our study finds technical flaws in existing metrics, leading to unreliable evaluations of models and conclusions about OH. This has sparked a debate on the question: Do more details always introduce more hallucinations in LVLM-based image captioning? In this paper, we address this debate by proposing a novel decoding strategy, Differentiated Beam Decoding (DBD), along with a reliable new set of evaluation metrics: CLIP-Precision, CLIP-Recall, and CLIP-F1. DBD decodes the wealth of information hidden in visual input into distinct language representations called unit facts in parallel. This decoding is achieved via a well-designed differential score that guides the parallel search and candidate screening. The selected unit facts are then aggregated to generate the final caption. Our proposed metrics evaluate the comprehensiveness and accuracy of image captions by comparing the embedding groups of ground-truth image regions and generated text partitions. Extensive experiments on the Visual Genome dataset validate the effectiveness of our approach, demonstrating that it produces detailed descriptions while maintaining low hallucination levels.

arxiv情報

著者 Mingqian Feng,Yunlong Tang,Zeliang Zhang,Chenliang Xu
発行日 2024-06-18 14:33:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク