ViperGPT: Visual Inference via Python Execution for Reasoning

要約

視覚的なクエリへの回答は、視覚的な処理と推論の両方を必要とする複雑なタスクです。
このタスクの主要なアプローチであるエンド ツー エンド モデルは、この 2 つを明示的に区別せず、解釈可能性と一般化を制限します。
モジュラー プログラムを学習することは、有望な代替手段となりますが、プログラムとモジュールの両方を同時に学習することは難しいため、困難であることが証明されています。
コード生成モデルを活用してビジョンと言語モデルをサブルーチンに構成し、任意のクエリの結果を生成するフレームワークである ViperGPT を紹介します。
ViperGPT は、提供された API を使用して利用可能なモジュールにアクセスし、後で実行される Python コードを生成してそれらを構成します。
この単純なアプローチは、それ以上のトレーニングを必要とせず、さまざまな複雑な視覚タスクで最先端の結果を達成します。

要約(オリジナル)

Answering visual queries is a complex task that requires both visual processing and reasoning. End-to-end models, the dominant approach for this task, do not explicitly differentiate between the two, limiting interpretability and generalization. Learning modular programs presents a promising alternative, but has proven challenging due to the difficulty of learning both the programs and modules simultaneously. We introduce ViperGPT, a framework that leverages code-generation models to compose vision-and-language models into subroutines to produce a result for any query. ViperGPT utilizes a provided API to access the available modules, and composes them by generating Python code that is later executed. This simple approach requires no further training, and achieves state-of-the-art results across various complex visual tasks.

arxiv情報

著者 Dídac Surís,Sachit Menon,Carl Vondrick
発行日 2023-03-14 17:57:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク