要約
Vision-Language-action(VLA)モデルは、物理的な世界でのジェネラリストのロボット操作に大きな期待を示しています。
ただし、既存のモデルは、ロボットの観察とテキストのみの命令に制限されており、デジタル世界の基礎モデルにおける最近の進歩によって有効になったインターリーブマルチモーダル命令の柔軟性がありません。
この論文では、インターリーブの画像テキスト命令を理解し、物理世界で連続的なアクションシーケンスを直接生成できる最初のフレームワークであるインターリーブVLAを紹介します。
最小限の変更と強力なゼロショット一般化を備えた最先端のVLAモデルを拡張する柔軟なモデルに依存しないパラダイムを提供します。
インターリーブVLAを実現する上での重要な課題は、大規模なインターリーブ具体化されたデータセットがないことです。
このギャップを埋めるために、オープンX編集の現実世界のデータセットからテキストのみの命令をインターリーブ画像テキスト命令に変換する自動パイプラインを開発し、最初の大規模な現実世界のインターリーブされた具体化された210Kエピソードを使用します。
シミュレーションベンチマークとレアルロボット実験に関する包括的な評価を通じて、インターリーブVLAが大きな利点を提供することを実証します。1)目に見えないオブジェクトへの一般化を最大のベースラインと比較して2-3Xで改善します、2)
さらに、インターリーブVLAの強力なゼロショットパフォーマンスの背後にある要因を分析し、インターリーブパラダイムが不均一なデータセットとインターネットからのものを含む多様な命令画像を効果的に活用していることを示しています。
モデルとデータセットはオープンソースが施されます。
要約(オリジナル)
Vision-Language-Action (VLA) models have shown great promise for generalist robotic manipulation in the physical world. However, existing models are restricted to robot observations and text-only instructions, lacking the flexibility of interleaved multimodal instructions enabled by recent advances in foundation models in the digital world. In this paper, we present Interleave-VLA, the first framework capable of comprehending interleaved image-text instructions and directly generating continuous action sequences in the physical world. It offers a flexible, model-agnostic paradigm that extends state-of-the-art VLA models with minimal modifications and strong zero-shot generalization. A key challenge in realizing Interleave-VLA is the absence of large-scale interleaved embodied datasets. To bridge this gap, we develop an automatic pipeline that converts text-only instructions from real-world datasets in Open X-Embodiment into interleaved image-text instructions, resulting in the first large-scale real-world interleaved embodied dataset with 210k episodes. Through comprehensive evaluation on simulation benchmarks and real-robot experiments, we demonstrate that Interleave-VLA offers significant benefits: 1) it improves out-of-domain generalization to unseen objects by 2-3x compared to state-of-the-art baselines, 2) supports flexible task interfaces, and 3) handles diverse user-provided image instructions in a zero-shot manner, such as hand-drawn sketches. We further analyze the factors behind Interleave-VLA’s strong zero-shot performance, showing that the interleaved paradigm effectively leverages heterogeneous datasets and diverse instruction images, including those from the Internet, which demonstrates strong potential for scaling up. Our model and dataset will be open-sourced.
arxiv情報
著者 | Cunxin Fan,Xiaosong Jia,Yihang Sun,Yixiao Wang,Jianglan Wei,Ziyang Gong,Xiangyu Zhao,Masayoshi Tomizuka,Xue Yang,Junchi Yan,Mingyu Ding |
発行日 | 2025-05-04 15:25:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google