GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs

要約

最近の研究では、大規模言語モデル (LLM) が言語をモジュール記述に変換するプログラミング機能を介して従来の神経記号モデルを強化し、モデルの透明性と効率を維持しながら強力な視覚的推論結果を達成できることが示されています。
ただし、これらのモデルは通常、タスクの新しいインスタンスごとにコード スニペット全体を徹底的に生成するため、非常に非効率的です。
私たちは、モジュールを成長させて再利用することによって、生成的な神経記号的視覚的推論を提案します。
具体的には、私たちのモデルは、モジュールの初期化、モジュールの生成、およびモジュールの実行という 3 つの独自のステージで構成されています。
まず、ビジョン言語タスクが与えられた場合、LLM を採用して、この新しいタスクを処理するために確立されたモジュールを再利用および拡張できるかどうかを検討します。
そうでない場合は、タスクに必要な新しいモジュールを初期化し、この新しいモジュールの入力と出力を指定します。
その後、LLM にクエリを実行して、要件に一致する対応するコード スニペットを生成することによって、新しいモジュールが作成されます。
新しいモジュールの能力をよりよく理解するために、数ショットのトレーニング例をテスト ケースとして扱い、新しいモジュールがこれらのケースに合格できるかどうかを確認します。
「はい」の場合、新しいモジュールは将来の再利用のためにモジュール ライブラリに追加されます。
最後に、新しく作成したビジュアル モジュールで解析されたプログラムを実行して結果を取得することで、テスト セットでのモデルのパフォーマンスを評価します。
提案されたモデルにはいくつかの利点があることがわかりました。
まず、視覚的な質問応答や指示表現の理解などの標準的なタスクを競争力を持って実行します。
第 2 に、1 つのタスクから学習したモジュールを新しいタスクにシームレスに転送できます。
最後に重要なことですが、いくつかのトレーニング例を観察し、モジュールを再利用することで、新しい視覚的推論タスクに適応できます。

要約(オリジナル)

Recent works have shown that Large Language Models (LLMs) could empower traditional neuro-symbolic models via programming capabilities to translate language into module descriptions, thus achieving strong visual reasoning results while maintaining the model’s transparency and efficiency. However, these models usually exhaustively generate the entire code snippet given each new instance of a task, which is extremely ineffective. We propose generative neuro-symbolic visual reasoning by growing and reusing modules. Specifically, our model consists of three unique stages, module initialization, module generation, and module execution. First, given a vision-language task, we adopt LLMs to examine whether we could reuse and grow over established modules to handle this new task. If not, we initialize a new module needed by the task and specify the inputs and outputs of this new module. After that, the new module is created by querying LLMs to generate corresponding code snippets that match the requirements. In order to get a better sense of the new module’s ability, we treat few-shot training examples as test cases to see if our new module could pass these cases. If yes, the new module is added to the module library for future reuse. Finally, we evaluate the performance of our model on the testing set by executing the parsed programs with the newly made visual modules to get the results. We find the proposed model possesses several advantages. First, it performs competitively on standard tasks like visual question answering and referring expression comprehension; Second, the modules learned from one task can be seamlessly transferred to new tasks; Last but not least, it is able to adapt to new visual reasoning tasks by observing a few training examples and reusing modules.

arxiv情報

著者 Zhenfang Chen,Rui Sun,Wenjun Liu,Yining Hong,Chuang Gan
発行日 2023-11-08 18:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク