VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making

要約

大規模な言語モデル(LLM)は、テキストおよびビジョン言語モデル(VLM)の推論に優れていますが、視覚的な知覚に非常に効果的ですが、視覚的な指導に基づく計画にそれらのモデルを適用することは広く開かれた問題です。
このペーパーでは、VLMベースの認識をLLMベースの推論と統合するマルチモーダル指導ベースの計画の新しいフレームワークであるViperを紹介します。
私たちのアプローチでは、フローズンVLMが画像観測のテキストの説明を生成するモジュラーパイプラインを使用し、LLMポリシーによって処理され、タスク目標に基づいてアクションを予測します。
行動のクローニングと強化学習を使用して、推論モジュールを微調整し、エージェントの意思決定能力を向上させます。
Alfworldベンチマークでの実験は、Viperが純粋にテキストベースのオラクルでギャップを狭めながら、最先端の視覚的指導ベースのプランナーを大幅に上回ることを示しています。
テキストを中間表現として活用することにより、Viperは説明可能性も向上させ、知覚と推論コンポーネントのきめの細かい分析への道を開きます。

要約(オリジナル)

While Large Language Models (LLMs) excel at reasoning on text and Vision-Language Models (VLMs) are highly effective for visual perception, applying those models for visual instruction-based planning remains a widely open problem. In this paper, we introduce VIPER, a novel framework for multimodal instruction-based planning that integrates VLM-based perception with LLM-based reasoning. Our approach uses a modular pipeline where a frozen VLM generates textual descriptions of image observations, which are then processed by an LLM policy to predict actions based on the task goal. We fine-tune the reasoning module using behavioral cloning and reinforcement learning, improving our agent’s decision-making capabilities. Experiments on the ALFWorld benchmark show that VIPER significantly outperforms state-of-the-art visual instruction-based planners while narrowing the gap with purely text-based oracles. By leveraging text as an intermediate representation, VIPER also enhances explainability, paving the way for a fine-grained analysis of perception and reasoning components.

arxiv情報

著者 Mohamed Salim Aissi,Clemence Grislain,Mohamed Chetouani,Olivier Sigaud,Laure Soulier,Nicolas Thome
発行日 2025-03-19 11:05:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク