要約
視覚言語推論における優れたパフォーマンスにもかかわらず、大規模視覚言語モデル (LVLM) は、指定された画像には存在しない幻覚コンテンツを生成する可能性があります。
既存の LVLM 幻覚ベンチマークのほとんどは、物体関連の幻覚を評価するように制約されています。
しかし、2 つの物体の関係に関する潜在的な幻覚、つまり関係幻覚についてはまだ研究が不足しています。
それを改善するために、この論文では、LVLM におけるオブジェクトと関係の幻覚を同時に測定するための統一フレームワークを設計します。
私たちのフレームワークの核となるアイデアは、LVLM の応答から抽出された (オブジェクト、関係、オブジェクト) の三つ組に対して幻覚評価を実行することであり、したがって、さまざまな視覚言語タスクに簡単に一般化できます。
私たちのフレームワークに基づいて、物体幻覚と関係幻覚の両方を同時に研究するために使用できる新しい三重項レベルの幻覚評価ベンチマークである Tri-HE をさらに紹介します。
私たちは Tri-HE の包括的な評価を実施し、既存の LVLM では関係幻覚の問題が物体幻覚よりもさらに深刻であることを観察し、信頼性の高い LVLM に対するこれまで無視されてきた問題を浮き彫りにしました。
さらに、私たちの発見に基づいて、LVLM の幻覚を軽減するためのシンプルかつ効果的なトレーニング不要のアプローチを設計します。これにより、Tri-HE のすべてのオープンソースの対応物を上回り、強力な GPT-4V と同等のパフォーマンスを達成します。
実験を再現するためのデータセットとコードは、https://github.com/wujunjie1998/Tri-HE で公開されています。
要約(オリジナル)
Despite the outstanding performance in vision-language reasoning, Large Vision-Language Models (LVLMs) might generate hallucinated contents that do not exist in the given image. Most existing LVLM hallucination benchmarks are constrained to evaluate the object-related hallucinations. However, the potential hallucination on the relations between two objects, i.e., relation hallucination, still lacks investigation. To remedy that, in this paper we design a unified framework to measure object and relation hallucination in LVLMs simultaneously. The core idea of our framework is to conduct hallucination evaluation on (object, relation, object) triplets extracted from LVLMs’ responses, and thus, could be easily generalized to different vision-language tasks. Based on our framework, we further introduce Tri-HE, a novel Triplet-level Hallucination Evaluation benchmark which can be used to study both object and relation hallucination at the same time. We conduct comprehensive evaluations on Tri-HE and observe that the relation hallucination issue is even more serious than object hallucination among existing LVLMs, highlighting a previously neglected problem towards reliable LVLMs. Moreover, based on our findings, we design a simple yet effective training-free approach to mitigate hallucinations for LVLMs, with which, we exceed all open-sourced counterparts on Tri-HE, achieving comparable performance with the powerful GPT-4V. Our dataset and code for the reproduction of our experiments are available publicly at https://github.com/wujunjie1998/Tri-HE.
arxiv情報
著者 | Junjie Wu,Tsz Ting Chung,Kai Chen,Dit-Yan Yeung |
発行日 | 2024-10-30 15:25:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google