De-fine: Decomposing and Refining Visual Programs with Auto-Feedback

要約

モジュール式で一般化可能なパラダイムであるビジュアル プログラミングは、さまざまなモジュールと Python 演算子を統合して、さまざまなビジョン言語タスクを解決します。
タスク固有のデータを必要とするエンドツーエンドのモデルとは異なり、教師なしの方法で視覚的な処理と推論を実行する点で進歩しています。
現在のビジュアル プログラミング手法では、タスクごとに単一パスでプログラムが生成されますが、フィードバックに基づいて評価および最適化する機能が残念ながら欠如しており、その結果、複雑な複数ステップの問題に対する有効性が制限されます。
ベンダー分解からインスピレーションを得て、複雑なタスクをより単純なサブタスクに自動的に分解し、自動フィードバックを通じてプログラムを改良する、トレーニング不要のフレームワークである De-fine を紹介します。
このモデルに依存しないアプローチでは、複数のモデルの長所を統合することで論理推論のパフォーマンスを向上させることができます。
さまざまな視覚的タスクにわたる実験では、De-fine がより堅牢なプログラムを作成することがわかりました。
さらに、各フィードバック モジュールを独立したエージェントとして見ると、エージェント研究の分野に新たな展望が生まれます。

要約(オリジナル)

Visual programming, a modular and generalizable paradigm, integrates different modules and Python operators to solve various vision-language tasks. Unlike end-to-end models that need task-specific data, it advances in performing visual processing and reasoning in an unsupervised manner. Current visual programming methods generate programs in a single pass for each task where the ability to evaluate and optimize based on feedback, unfortunately, is lacking, which consequentially limits their effectiveness for complex, multi-step problems. Drawing inspiration from benders decomposition, we introduce De-fine, a training-free framework that automatically decomposes complex tasks into simpler subtasks and refines programs through auto-feedback. This model-agnostic approach can improve logical reasoning performance by integrating the strengths of multiple models. Our experiments across various visual tasks show that De-fine creates more robust programs. Moreover, viewing each feedback module as an independent agent will yield fresh prospects for the field of agent research.

arxiv情報

著者 Minghe Gao,Juncheng Li,Hao Fei,Liang Pang,Wei Ji,Guoming Wang,Zheqi Lv,Wenqiao Zhang,Siliang Tang,Yueting Zhuang
発行日 2024-08-05 13:10:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク