要約
特に大規模視覚言語モデル (VLM) を活用した視覚的推論 (VR) の最近の進歩は有望ですが、大規模なデータセットへのアクセスが必要であり、高い計算コストや限られた一般化機能などの課題に直面しています。
構成的な視覚的推論アプローチが効果的な戦略として浮上しています。
ただし、視覚的な推論プロセスに対する決定の影響を考慮せずに、計画、推論、またはその両方を実行する際に、大規模言語モデル (LLM) にエンコードされた常識的な知識に大きく依存しており、エラーや手順の失敗につながる可能性があります。
これらの課題に対処するために、信頼性が高く段階的に進歩的な一般推論のために設計された多段階の動的構成視覚推論フレームワークである HYDRA を導入します。
HYDRA は、プランナー、認知コントローラーとして機能する強化学習 (RL) エージェント、および推論機能の 3 つの重要なモジュールを統合します。
プランナー モジュールと推論モジュールは LLM を利用して、選択された命令からそれぞれ命令サンプルと実行可能コードを生成します。一方、RL エージェントはこれらのモジュールと動的に対話し、履歴状態からの情報に基づいて最適な命令サンプルの選択に関する高度な決定を下します。
フィードバックループを通じて保存されます。
この適応性のある設計により、HYDRA は推論プロセス中に受け取った以前のフィードバックに基づいてアクションを調整できるため、より信頼性の高い推論出力が得られ、最終的に全体的な有効性が向上します。
私たちのフレームワークは、広く使用されている 4 つの異なるデータセット上のさまざまな VR タスクで最先端のパフォーマンスを実証します。
要約(オリジナル)
Recent advances in visual reasoning (VR), particularly with the aid of Large Vision-Language Models (VLMs), show promise but require access to large-scale datasets and face challenges such as high computational costs and limited generalization capabilities. Compositional visual reasoning approaches have emerged as effective strategies; however, they heavily rely on the commonsense knowledge encoded in Large Language Models (LLMs) to perform planning, reasoning, or both, without considering the effect of their decisions on the visual reasoning process, which can lead to errors or failed procedures. To address these challenges, we introduce HYDRA, a multi-stage dynamic compositional visual reasoning framework designed for reliable and incrementally progressive general reasoning. HYDRA integrates three essential modules: a planner, a Reinforcement Learning (RL) agent serving as a cognitive controller, and a reasoner. The planner and reasoner modules utilize an LLM to generate instruction samples and executable code from the selected instruction, respectively, while the RL agent dynamically interacts with these modules, making high-level decisions on selection of the best instruction sample given information from the historical state stored through a feedback loop. This adaptable design enables HYDRA to adjust its actions based on previous feedback received during the reasoning process, leading to more reliable reasoning outputs and ultimately enhancing its overall effectiveness. Our framework demonstrates state-of-the-art performance in various VR tasks on four different widely-used datasets.
arxiv情報
著者 | Fucai Ke,Zhixi Cai,Simindokht Jahangard,Weiqing Wang,Pari Delir Haghighi,Hamid Rezatofighi |
発行日 | 2024-03-19 16:31:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google