Recursive Visual Programming

要約

ビジュアル プログラミング (VP) は、ビジュアル質問応答 (VQA) の強力なフレームワークとして登場しました。
これらのメソッドは、質問ごとにオーダーメイドのコードを生成して実行することにより、特にシュート数が少ないシナリオやシュート数がゼロのシナリオにおいて、優れた構成能力と推論能力を発揮します。
ただし、既存の VP メソッドは単一関数ですべてのコードを生成するため、精度と解釈性の両方の点で次善のコードが生成されます。
人間のコーディング手法にヒントを得て、生成されたルーチンを簡素化し、より効率的な問題解決を提供し、より複雑なデータ構造を管理できる再帰的ビジュアル プログラミング (RVP) を提案します。
RVP は人間のコーディング手法からインスピレーションを得ており、反復再帰コード生成アプローチで VQA タスクにアプローチし、複雑な問題をより小さな部分に分解できます。
特に、RVP は動的な型の割り当てが可能です。つまり、システムが新しいコードを再帰的に生成すると、適切な戻り値の型を自律​​的に決定し、その出力を生成するために必要なコードを作成します。
私たちは、VSR、COVR、GQA、NextQA などのベンチマークに関する広範な実験を通じて RVP の有効性を示し、コーディングを通じて VQA タスクを解決するために人間のような再帰的およびモジュール式プログラミング手法を採用することの価値を強調します。

要約(オリジナル)

Visual Programming (VP) has emerged as a powerful framework for Visual Question Answering (VQA). By generating and executing bespoke code for each question, these methods demonstrate impressive compositional and reasoning capabilities, especially in few-shot and zero-shot scenarios. However, existing VP methods generate all code in a single function, resulting in code that is suboptimal in terms of both accuracy and interpretability. Inspired by human coding practices, we propose Recursive Visual Programming (RVP), which simplifies generated routines, provides more efficient problem solving, and can manage more complex data structures. RVP is inspired by human coding practices and approaches VQA tasks with an iterative recursive code generation approach, allowing decomposition of complicated problems into smaller parts. Notably, RVP is capable of dynamic type assignment, i.e., as the system recursively generates a new piece of code, it autonomously determines the appropriate return type and crafts the requisite code to generate that output. We show RVP’s efficacy through extensive experiments on benchmarks including VSR, COVR, GQA, and NextQA, underscoring the value of adopting human-like recursive and modular programming techniques for solving VQA tasks through coding.

arxiv情報

著者 Jiaxin Ge,Sanjay Subramanian,Baifeng Shi,Roei Herzig,Trevor Darrell
発行日 2024-07-10 17:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク