要約
大規模なビジョン言語モデル(LVLM)は、多くの場合、オブジェクトの幻覚に悩まされ、信頼性を損ないます。
驚くべきことに、画像上の視覚的な手がかり(境界ボックス、サークルなど)のオーバーレイ(例:境界ボックス、サークル)がそのような幻覚を大幅に軽減できることがわかります。
ただし、異なる視覚プロンプト(VPS)の効果は異なります。
これに対処するために、モデルの内部へのアクセスを必要とせずにLVLM応答を強化する最適なVPSを特定するフレームワークであるブラックボックスビジュアルプロンプトエンジニアリング(BBVPE)を提案します。
私たちのアプローチは、候補VPSのプールを採用し、ルーターモデルをトレーニングして、特定の入力画像に対して最も効果的なVPを動的に選択します。
このブラックボックスアプローチはモデルに依存しているため、オープンソースと独自のLVLMの両方に適用できます。
教皇や椅子などのベンチマークでの評価は、BBVPEがオブジェクトの幻覚を効果的に減らすことを示しています。
要約(オリジナル)
Large Vision Language Models (LVLMs) often suffer from object hallucination, which undermines their reliability. Surprisingly, we find that simple object-based visual prompting — overlaying visual cues (e.g., bounding box, circle) on images — can significantly mitigate such hallucination; however, different visual prompts (VPs) vary in effectiveness. To address this, we propose Black-Box Visual Prompt Engineering (BBVPE), a framework to identify optimal VPs that enhance LVLM responses without needing access to model internals. Our approach employs a pool of candidate VPs and trains a router model to dynamically select the most effective VP for a given input image. This black-box approach is model-agnostic, making it applicable to both open-source and proprietary LVLMs. Evaluations on benchmarks such as POPE and CHAIR demonstrate that BBVPE effectively reduces object hallucination.
arxiv情報
著者 | Sangmin Woo,Kang Zhou,Yun Zhou,Shuai Wang,Sheng Guan,Haibo Ding,Lin Lee Cheong |
発行日 | 2025-04-30 11:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google