要約
基礎モデル(FMS)は、具体化されたエージェントの言語とアクションを橋渡しするためにますます使用されていますが、さまざまなFM統合戦略の運用特性は、特に変化する環境における複雑な指導と汎用性の高いアクション生成のために、依存していないままです。
このペーパーでは、ロボットシステムを構築するための3つのパラダイムを検証します:知覚と計画を暗黙的に統合するエンドツーエンドのビジョン言語アクション(VLA)モデル、および視覚言語モデル(VLMS)またはマルチモーダルの大手言語モデル(LLM)のいずれかを組み込んだモジュラーパイプライン。
これらのパラダイムを2つの焦点を絞ったケーススタディを使用して評価します。微調整された命令の理解とクロスモーダルの分解を評価する複雑な命令接地タスクと、VLA Finetuningを介したスキル転送をターゲットとするオブジェクト操作タスクです。
ゼロショットと少数のショット設定での実験により、一般化とデータ効率のトレードオフが明らかになりました。
パフォーマンスの制限を調査することにより、言語主導の物理エージェントを開発するための設計の影響を蒸留し、実際の条件でFM駆動のロボット工学の新たな課題と機会を概説します。
要約(オリジナル)
Foundation models (FMs) are increasingly used to bridge language and action in embodied agents, yet the operational characteristics of different FM integration strategies remain under-explored — particularly for complex instruction following and versatile action generation in changing environments. This paper examines three paradigms for building robotic systems: end-to-end vision-language-action (VLA) models that implicitly integrate perception and planning, and modular pipelines incorporating either vision-language models (VLMs) or multimodal large language models (LLMs). We evaluate these paradigms through two focused case studies: a complex instruction grounding task assessing fine-grained instruction understanding and cross-modal disambiguation, and an object manipulation task targeting skill transfer via VLA finetuning. Our experiments in zero-shot and few-shot settings reveal trade-offs in generalization and data efficiency. By exploring performance limits, we distill design implications for developing language-driven physical agents and outline emerging challenges and opportunities for FM-powered robotics in real-world conditions.
arxiv情報
著者 | Xiuchao Sui,Daiying Tian,Qi Sun,Ruirui Chen,Dongkyu Choi,Kenneth Kwok,Soujanya Poria |
発行日 | 2025-05-21 16:01:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google