Reducing Hallucinations: Enhancing VQA for Flood Disaster Damage Assessment with Visual Contexts

要約

ビジュアル質問応答 (VQA) モデルのゼロショット パフォーマンスは、プロンプトに大きく依存します。
たとえば、災害シナリオ向けのゼロショット VQA では、適切に設計された思考連鎖 (CoT) プロンプトを活用して、モデルの可能性を刺激できます。
しかし、CoT プロンプトを使用すると、思考過程の幻覚により最終的に不正解になってしまうなどの問題があります。
この論文では、2 段階プロンプトを備えた洪水災害 VQA (VQA-TSP) と呼ばれるゼロショット VQA を提案します。
モデルは第 1 段階で思考プロセスを生成し、その思考プロセスを使用して第 2 段階で最終的な答えを生成します。
特に、思考プロセスに存在する幻覚の問題を軽減するために、第 2 段階で視覚的なコンテキストが追加されます。
実験結果は、私たちの方法が洪水災害シナリオ全体で最先端のゼロショット VQA モデルのパフォーマンスを超えることを示しています。
私たちの研究は、CoT ベースのゼロショット VQA のパフォーマンスを向上させるための研究基盤を提供します。

要約(オリジナル)

The zero-shot performance of visual question answering (VQA) models relies heavily on prompts. For example, a zero-shot VQA for disaster scenarios could leverage well-designed Chain of Thought (CoT) prompts to stimulate the model’s potential. However, using CoT prompts has some problems, such as causing an incorrect answer in the end due to the hallucination in the thought process. In this paper, we propose a zero-shot VQA named Flood Disaster VQA with Two-Stage Prompt (VQA-TSP). The model generates the thought process in the first stage and then uses the thought process to generate the final answer in the second stage. In particular, visual context is added in the second stage to relieve the hallucination problem that exists in the thought process. Experimental results show that our method exceeds the performance of state-of-the-art zero-shot VQA models for flood disaster scenarios in total. Our study provides a research basis for improving the performance of CoT-based zero-shot VQA.

arxiv情報

著者 Yimin Sun,Chao Wang,Yan Peng
発行日 2023-12-21 13:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク