Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features

要約

エンドツーエンドの学習は、感覚入力をアクションに直接マッピングし、複雑なロボットタスクの高度に統合された効率的なポリシーを作成します。
ただし、このようなモデルは、トレーニングシナリオを超えて一般化するのに苦労し、新しい環境、タスク、概念への適応性を制限します。
この作業では、目に見えないテキスト命令と視覚的な分布シフトの下で、ビジョンベースの制御ポリシーを使用して堅牢な閉ループパフォーマンスを実現するために必要な最小限のデータ要件とアーキテクチャの適応を調査します。
私たちの調査結果は、Flex(lexivally)で合成されます。これは、フローズンパッチワイズの特徴抽出器として事前に訓練されたビジョン言語モデル(VLM)を使用するフレームワークであり、セマンティック情報と視覚情報を統合する空間的に認識された埋め込みを生成します。
このアプローチの有効性は、小さなシミュレートされたデータセットでクローニングする動作を介して訓練されたエージェントが、多様な斬新な目標とコマンドの定式化を備えた実際のシーンに正常に一般化する動作を介してトレーニングしました。

要約(オリジナル)

End-to-end learning directly maps sensory inputs to actions, creating highly integrated and efficient policies for complex robotics tasks. However, such models often struggle to generalize beyond their training scenarios, limiting adaptability to new environments, tasks, and concepts. In this work, we investigate the minimal data requirements and architectural adaptations necessary to achieve robust closed-loop performance with vision-based control policies under unseen text instructions and visual distribution shifts. Our findings are synthesized in Flex (Fly lexically), a framework that uses pre-trained Vision Language Models (VLMs) as frozen patch-wise feature extractors, generating spatially aware embeddings that integrate semantic and visual information. We demonstrate the effectiveness of this approach on a quadrotor fly-to-target task, where agents trained via behavior cloning on a small simulated dataset successfully generalize to real-world scenes with diverse novel goals and command formulations.

arxiv情報

著者 Makram Chahine,Alex Quach,Alaa Maalouf,Tsun-Hsuan Wang,Daniela Rus
発行日 2025-05-16 15:13:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 68T40, 68T50, cs.AI, cs.RO, I.2.10 パーマリンク