要約
空間的関係の幻覚は、大きな視覚言語モデル(LVLMS)で永続的な課題をもたらし、画像内のオブジェクトの位置と空間構成に関する誤った予測を生成します。
この問題に対処するために、空間的関係の幻覚を減らすために設計された制約対応プロンプトフレームワークを提案します。
具体的には、2つのタイプの制約を導入します。(1)ペアワイズオブジェクト関係の一貫性を保証する双方向制約と(2)複数のオブジェクトにわたってリレーショナル依存性を施行するトランジテーション制約。
これらの制約を組み込むことにより、LVLMSはより空間的に一貫性のある一貫した出力を生成できます。
広く使用されている3つの空間関係データセットでの方法を評価し、既存のアプローチに対するパフォーマンスの改善を示します。
さらに、さまざまな双方向関係分析の選択肢とトランジテーション参照選択の体系的な分析は、空間関係の幻覚を緩和するための制約を組み込む際の方法のより大きな可能性を強調しています。
要約(オリジナル)
Spatial relation hallucinations pose a persistent challenge in large vision-language models (LVLMs), leading to generate incorrect predictions about object positions and spatial configurations within an image. To address this issue, we propose a constraint-aware prompting framework designed to reduce spatial relation hallucinations. Specifically, we introduce two types of constraints: (1) bidirectional constraint, which ensures consistency in pairwise object relations, and (2) transitivity constraint, which enforces relational dependence across multiple objects. By incorporating these constraints, LVLMs can produce more spatially coherent and consistent outputs. We evaluate our method on three widely-used spatial relation datasets, demonstrating performance improvements over existing approaches. Additionally, a systematic analysis of various bidirectional relation analysis choices and transitivity reference selections highlights greater possibilities of our methods in incorporating constraints to mitigate spatial relation hallucinations.
arxiv情報
著者 | Jiarui Wu,Zhuo Liu,Hangfeng He |
発行日 | 2025-02-12 11:32:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google