Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA

要約

知識ベースの視覚的質問応答 (K-VQA) では、多くの場合、画像を超えた背景知識の使用が必要です。
しかし、単一の知識生成戦略では、K-VQA のすべての質問に対して不十分な場合が多いことがわかりました。
この目的を達成するために、私たちは、補完的な質問応答戦術のバンドルを利用し、テキストの根拠を使用して回答を集約する、多様化、証拠の切り捨て、知識ベースの解明のための組み合わせ (DietCoke) を提案します。
DietCoke は、多様化、合理化、アンサンブルの 3 つの段階で構成されます。
多様化ステージでは 3 つの独特な意思決定コンテキストが生成され、それぞれが独自の回答候補につながります。
合理化ステージでは、無相関化手法を使用して、回答候補ごとに 2 つの理論的根拠、自動的理論的根拠と機械的理論的根拠を生成します。
最後に、アンサンブル段階では、論理的根拠を知らされた LLM が 3 つの候補から 1 つの回答を選択します。
実験の結果、DietCoke は最先端の LLM ベースのベースラインを OK-VOA で 2.8%、A-OKVOA で 4.7% 大幅に上回っており、アンサンブルの戦略は高度に補完的であることが示されています。
コードはhttps://github.com/limiaoyu/DietCokeから入手できます。

要約(オリジナル)

Knowledge-based Visual Question-answering (K-VQA) often requires the use of background knowledge beyond the image. However, we discover that a single knowledge generation strategy is often insufficient for all K-VQA questions. To this end, we propose Diversification, Evidence Truncation, and Combination for Knowledge-based Elucidation (DietCoke), which utilizes a bundle of complementary question-answering tactics and aggregates their answers using textual rationales. DietCoke comprises of three stages: diversification, rationalization, and ensemble. The diversification stage generates three distinctive decision contexts, each leading to its own answer candidate. The rationalization stage generates two rationales, the automatic rationale and the mechanistic rationale, for each answer candidate using decorrelated techniques. Finally, in the ensemble stage, an LLM informed by the rationales selects one answer from the three candidates. Experiments show that DietCoke significantly outperforms state-of-the-art LLM-based baselines by 2.8% on OK-VOA and 4.7% on A-OKVOA and that the strategies in the ensembles are highly complementary. Code is available at: https://github.com/limiaoyu/DietCoke

arxiv情報

著者 Miaoyu Li,Haoxin Li,Zilin Du,Boyang Li
発行日 2024-10-09 16:04:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク