Rationale-based Ensemble of Multiple QA Strategies for Zero-shot Knowledge-based VQA


知識ベースの視覚的質問回答 (K-VQA) では、画像に描かれている内容を超える背景知識を使用する必要があります。
現在のゼロショット K-VQA メソッドは、通常、画像を単一タイプのテキストの決定コンテキストに変換し、テキストベースのモデルを使用してそれに基づいて質問に回答します。これは、K-VQA の質問が多くの場合、次の組み合わせを必要とするという事実と矛盾します。
これを考慮して、我々は、回答候補生成 (ACG) と理論ベースの戦略融合 (RSF) で構成される、複数の質問応答戦術の動的なアンサンブルを実現する、理論ベースの回答コンテキスト アンサンブル戦術 (REACT) を提案します。
ACG では、質問ごとに異なる戦略を提供するために 3 つの独特な意思決定コンテキストを生成し、その結果 3 つの回答候補が生成されます。
RSF は、各候補の意思決定コンテキストから自動的かつ機械的な根拠を生成し、モデルがすべての候補から正しい答えを選択できるようにします。
私たちは OK-VQA および A-OKVQA データセットで包括的な実験を実施しており、私たちの手法はすべてのデータセットで最先端の LLM ベースのベースラインを大幅に上回っています。


Knowledge-based Visual Qustion-answering (K-VQA) necessitates the use of background knowledge beyond what is depicted in the image. Current zero-shot K-VQA methods usually translate an image to a single type of textual decision context and use a text-based model to answer the question based on it, which conflicts with the fact that K-VQA questions often require the combination of multiple question-answering strategies. In light of this, we propose Rationale-based Ensemble of Answer Context Tactics (REACT) to achieve a dynamic ensemble of multiple question-answering tactics, comprising Answer Candidate Generation (ACG) and Rationale-based Strategy Fusion (RSF). In ACG, we generate three distinctive decision contexts to provide different strategies for each question, resulting in the generation of three answer candidates. RSF generates automatic and mechanistic rationales from decision contexts for each candidate, allowing the model to select the correct answer from all candidates. We conduct comprehensive experiments on the OK-VQA and A-OKVQA datasets, and our method significantly outperforms state-of-the-art LLM-based baselines on all datasets.


著者 Miaoyu Li,Haoxin Li,Zilin Du,Boyang Li
発行日 2024-06-19 02:02:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク