Modular Visual Question Answering via Code Generation

要約

視覚的な質問応答をモジュール式コード生成として定式化するフレームワークを紹介します。
VQA へのモジュール型アプローチに関する以前の研究とは対照的に、私たちのアプローチは追加のトレーニングを必要とせず、事前トレーニングされた言語モデル (LM)、画像とキャプションのペアで事前トレーニングされたビジュアル モデル、およびコンテキスト内学習に使用される 50 の VQA サンプルに依存しています。

生成された Python プログラムは、算術ロジックと条件ロジックを使用してビジュアル モデルの出力を呼び出し、構成します。
私たちのアプローチでは、コード生成を使用しない数ショットのベースラインと比較して、COVR データセットの精度が少なくとも 3%、GQA データセットの精度が約 2% 向上しました。

要約(オリジナル)

We present a framework that formulates visual question answering as modular code generation. In contrast to prior work on modular approaches to VQA, our approach requires no additional training and relies on pre-trained language models (LMs), visual models pre-trained on image-caption pairs, and fifty VQA examples used for in-context learning. The generated Python programs invoke and compose the outputs of the visual models using arithmetic and conditional logic. Our approach improves accuracy on the COVR dataset by at least 3% and on the GQA dataset by roughly 2% compared to the few-shot baseline that does not employ code generation.

arxiv情報

著者 Sanjay Subramanian,Medhini Narasimhan,Kushal Khangaonkar,Kevin Yang,Arsha Nagrani,Cordelia Schmid,Andy Zeng,Trevor Darrell,Dan Klein
発行日 2023-06-08 17:45:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク