要約
大規模視覚言語モデル (LVLM) は、タスクに続く視覚的な指示で幻覚に悩まされ、その信頼性と現実世界への適用性が制限されます。
私たちは Pelican を提案します。これは、請求の検証を通じて幻覚を検出し、軽減するように設計された新しいフレームワークです。
Pelican は、まず視覚的なクレームを 1 次述語に基づいて一連のサブクレームに分解します。
これらのサブクレームは (述語、質問) ペアで構成され、計算グラフのノードとして概念化できます。
次に、思考プログラムのプロンプトを使用して、外部ツールの柔軟な構成を通じてこれらの質問に答えるための Python コードを生成します。
Pelican は、(1) オブジェクト インスタンスを正確にグラウンディングするための中間変数、および (2) 適応的な修正と不一致の特定を可能にするサブ質問に答えるための共有計算を導入することで、以前の研究を改善しました。
最後に、LLM の推論能力を使用して、各サブクレームの (質問、回答) ペアの一貫性と信頼性を考慮することで、クレームの正しさを検証します。
私たちの実験では、さまざまなベースライン LVLM で幻覚率が $\sim$8% ~ 32% 低下し、MMHal-Bench で幻覚軽減のために提案されたアプローチと比較して 27% 低下したことが明らかになりました。
他の 2 つのベンチマークの結果は、私たちの結果をさらに裏付けています。
要約(オリジナル)
Large Visual Language Models (LVLMs) struggle with hallucinations in visual instruction following task(s), limiting their trustworthiness and real-world applicability. We propose Pelican — a novel framework designed to detect and mitigate hallucinations through claim verification. Pelican first decomposes the visual claim into a chain of sub-claims based on first-order predicates. These sub-claims consist of (predicate, question) pairs and can be conceptualized as nodes of a computational graph. We then use Program-of-Thought prompting to generate Python code for answering these questions through flexible composition of external tools. Pelican improves over prior work by introducing (1) intermediate variables for precise grounding of object instances, and (2) shared computation for answering the sub-question to enable adaptive corrections and inconsistency identification. We finally use reasoning abilities of LLM to verify the correctness of the the claim by considering the consistency and confidence of the (question, answer) pairs from each sub-claim. Our experiments reveal a drop in hallucination rate by $\sim$8%-32% across various baseline LVLMs and a 27% drop compared to approaches proposed for hallucination mitigation on MMHal-Bench. Results on two other benchmarks further corroborate our results.
arxiv情報
著者 | Pritish Sahu,Karan Sikka,Ajay Divakaran |
発行日 | 2024-07-02 15:17:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google