Select2Plan: Training-Free ICL-Based Planning through VQA and Memory Retrieval

要約

この研究では、自律ナビゲーションのコンテキストにおける高レベルのロボット計画のための既製の視覚言語モデル (VLM) の可能性を調査します。
実際、パス計画のための既存の学習ベースのアプローチのほとんどは、広範なタスク固有のトレーニング/微調整を必要としますが、私たちは、ほとんどの実際的なケースでそのようなトレーニングを回避できる方法を示します。
これを実現するために、微調整や特殊なトレーニングの必要性を完全に排除する、高レベルのロボット計画のためのトレーニング不要の新しいフレームワークである Select2Plan (S2P) を導入します。
構造化されたビジュアル質問応答 (VQA) とインコンテキスト学習 (ICL) を活用することで、私たちのアプローチはデータ収集の必要性を大幅に削減し、トレーニングされたモデルで通常使用されるタスク固有のデータの一部を必要としたり、オンラインのみに依存したりする必要さえあります。
データ。
私たちの方法は、一般にトレーニングされた VLM を柔軟かつコスト効率の高い方法で効果的に使用することを容易にし、単純な単眼カメラを除いて追加のセンシングを必要としません。
さまざまなシーン タイプ、コンテキスト ソース、センシング設定に対する適応性を実証します。
従来の一人称視点 (FPV) とインフラストラクチャ主導の三人称視点 (TPV) ナビゲーションという 2 つの異なるシナリオでアプローチを評価し、私たちの方法の柔軟性とシンプルさを実証します。
私たちの技術は、TPV シナリオにおけるベースライン VLM のナビゲーション機能を約 50% 大幅に強化し、わずか 20 のデモンストレーションで FPV シナリオのトレーニング済みモデルと同等になります。

要約(オリジナル)

This study explores the potential of off-the-shelf Vision-Language Models (VLMs) for high-level robot planning in the context of autonomous navigation. Indeed, while most of existing learning-based approaches for path planning require extensive task-specific training/fine-tuning, we demonstrate how such training can be avoided for most practical cases. To do this, we introduce Select2Plan (S2P), a novel training-free framework for high-level robot planning which completely eliminates the need for fine-tuning or specialised training. By leveraging structured Visual Question-Answering (VQA) and In-Context Learning (ICL), our approach drastically reduces the need for data collection, requiring a fraction of the task-specific data typically used by trained models, or even relying only on online data. Our method facilitates the effective use of a generally trained VLM in a flexible and cost-efficient way, and does not require additional sensing except for a simple monocular camera. We demonstrate its adaptability across various scene types, context sources, and sensing setups. We evaluate our approach in two distinct scenarios: traditional First-Person View (FPV) and infrastructure-driven Third-Person View (TPV) navigation, demonstrating the flexibility and simplicity of our method. Our technique significantly enhances the navigational capabilities of a baseline VLM of approximately 50% in TPV scenario, and is comparable to trained models in the FPV one, with as few as 20 demonstrations.

arxiv情報

著者 Davide Buoso,Luke Robinson,Giuseppe Averta,Philip Torr,Tim Franzmeyer,Daniele De Martini
発行日 2024-11-06 15:44:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク