要約
視覚-言語-動作 (VLA) モデルは、エンドツーエンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示しています。
しかし、現在の VLA モデルは大きな課題に直面しています。推論中に速度が遅く、大量のロボット データに対する広範な事前トレーニングが必要なため、現実世界への展開が困難になっています。
このペーパーでは、TinyVLA と呼ばれるコンパクトなビジョン-言語-アクション モデルの新しいファミリーを紹介します。これは、既存の VLA モデルに比べて 2 つの重要な利点を提供します。(1) 推論速度の高速化、および (2) データ効率の向上により、
トレーニング前の段階。
私たちのフレームワークには、TinyVLA を構築するための 2 つの重要なコンポーネントが組み込まれています。(1) 堅牢な高速マルチモーダル モデルによるポリシー バックボーンの初期化、(2) ロボットの正確な動作を可能にする微調整中の拡散ポリシー デコーダの統合。
私たちは、シミュレーションと実際のロボットの両方で TinyVLA の広範な評価を実施し、私たちのアプローチが速度とデータ効率の点で最先端の VLA モデルである OpenVLA を大幅に上回り、同等またはそれ以上のパフォーマンスを実現することを実証しました。
さらに、TinyVLA は、言語命令、新しいオブジェクト、見えない位置、オブジェクトの外観の変化、背景の変化、環境の変化など、さまざまな次元にわたって強力な一般化機能を示し、多くの場合、OpenVLA のパフォーマンスと同等またはそれを上回ります。
\methodname は、ポリシー学習のための事前トレーニング済みマルチモーダル モデルの利用について興味深い視点を提供すると信じています。
私たちのプロジェクトは https://tiny-vla.github.io にあります。
要約(オリジナル)
Vision-Language-Action (VLA) models have shown remarkable potential in visuomotor control and instruction comprehension through end-to-end learning processes. However, current VLA models face significant challenges: they are slow during inference and require extensive pre-training on large amounts of robotic data, making real-world deployment difficult. In this paper, we introduce a new family of compact vision-language-action models, called TinyVLA, which offers two key advantages over existing VLA models: (1) faster inference speeds, and (2) improved data efficiency, eliminating the need for pre-training stage. Our framework incorporates two essential components to build TinyVLA: (1) initializing the policy backbone with robust, high-speed multimodal models, and (2) integrating a diffusion policy decoder during fine-tuning to enable precise robot actions. We conducted extensive evaluations of TinyVLA in both simulation and on real robots, demonstrating that our approach significantly outperforms the state-of-the-art VLA model, OpenVLA, in terms of speed and data efficiency, while delivering comparable or superior performance. Additionally, TinyVLA exhibits strong generalization capabilities across various dimensions, including language instructions, novel objects, unseen positions, changes in object appearance, background variations, and environmental shifts, often matching or exceeding the performance of OpenVLA. We believe that \methodname offers an interesting perspective on utilizing pre-trained multimodal models for policy learning. Our project is at https://tiny-vla.github.io.
arxiv情報
著者 | Junjie Wen,Yichen Zhu,Jinming Li,Minjie Zhu,Kun Wu,Zhiyuan Xu,Ning Liu,Ran Cheng,Chaomin Shen,Yaxin Peng,Feifei Feng,Jian Tang |
発行日 | 2024-09-27 12:23:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google