TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

要約

Vision-Language-action(VLA)モデルは、エンドツーエンドの学習プロセスを通じて視覚運動制御と指導の理解において顕著な可能性を示しています。
ただし、現在のVLAモデルは重大な課題に直面しています。推論中は遅く、大量のロボットデータでの広範な事前トレーニングが必要であり、実際の展開が困難になっています。
このホワイトペーパーでは、TinyVLAと呼ばれるコンパクトビジョン言語アクションモデルの新しいファミリーを紹介します。これは、既存のVLAモデルよりも2つの重要な利点を提供します。(1)より速い推論速度、(2)データ効率の向上し、トレーニング前の段階の必要性を排除します。
当社のフレームワークには、TinyVLAを構築するための2つの重要なコンポーネントが組み込まれています。(1)堅牢で高速マルチモーダルモデルでポリシーバックボーンを初期化し、(2)微調整中の拡散ポリシーデコーダーを統合して、正確なロボットアクションを可能にする。
シミュレーションと実際のロボットの両方でTinyVLAの広範な評価を実施し、私たちのアプローチが、速度とデータ効率の点で最先端のVLAモデルであるOpenVLAを大幅に上回り、同等または優れたパフォーマンスを提供することを実証しました。
さらに、TinyVLAは、言語の指示、新しいオブジェクト、目に見えない位置、オブジェクトの外観の変化、背景変動、および環境シフトなど、さまざまな次元にわたって強力な一般化機能を示します。
\ MethodNameは、ポリシー学習のために事前に訓練されたマルチモーダルモデルを利用することに関する興味深い視点を提供すると考えています。
私たちのプロジェクトはhttps://tiny-vla.github.ioにあります。

要約(オリジナル)

Vision-Language-Action (VLA) models have shown remarkable potential in visuomotor control and instruction comprehension through end-to-end learning processes. However, current VLA models face significant challenges: they are slow during inference and require extensive pre-training on large amounts of robotic data, making real-world deployment difficult. In this paper, we introduce a new family of compact vision-language-action models, called TinyVLA, which offers two key advantages over existing VLA models: (1) faster inference speeds, and (2) improved data efficiency, eliminating the need for pre-training stage. Our framework incorporates two essential components to build TinyVLA: (1) initializing the policy backbone with robust, high-speed multimodal models, and (2) integrating a diffusion policy decoder during fine-tuning to enable precise robot actions. We conducted extensive evaluations of TinyVLA in both simulation and on real robots, demonstrating that our approach significantly outperforms the state-of-the-art VLA model, OpenVLA, in terms of speed and data efficiency, while delivering comparable or superior performance. Additionally, TinyVLA exhibits strong generalization capabilities across various dimensions, including language instructions, novel objects, unseen positions, changes in object appearance, background variations, and environmental shifts, often matching or exceeding the performance of OpenVLA. We believe that \methodname offers an interesting perspective on utilizing pre-trained multimodal models for policy learning. Our project is at https://tiny-vla.github.io.

arxiv情報

著者 Junjie Wen,Yichen Zhu,Jinming Li,Minjie Zhu,Kun Wu,Zhiyuan Xu,Ning Liu,Ran Cheng,Chaomin Shen,Yaxin Peng,Feifei Feng,Jian Tang
発行日 2025-05-13 11:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク