DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data

要約

具体化されたAIにおけるビジョン言語アクション(VLA)モデルの採用の拡大は、多様な操作デモの需要を強化します。
ただし、データ収集に関連する高コストは、多くの場合、すべてのシナリオでデータカバレッジが不十分であるため、モデルのパフォーマンスが制限されます。
大きなワークスペースの空間推論段階(SRP)が障害の場合を支配することが観察されています。
幸いなことに、このデータは低コストで収集でき、モデルのパフォーマンスを改善するために安価なデータを活用する可能性を強調しています。
このホワイトペーパーでは、Training Trajectoriesを明確に収集できるSRPデータを豊富に豊富に収集して、VLAモデルの一般化を強化するために、トレーニングの軌跡を明確にレバレッジに切り離すフレームワークであるDataplatterメソッドを紹介します。
分析を通じて、適切な割合を持つ追加のSRPデータを備えたサブタスク固有のトレーニングが、ロボット操作のパフォーマンス触媒として機能し、費用のかかる物理的インタラクションフェーズ(PIP)データの利用を最大化できることを実証します。
実験では、費用対効果の高いSRP軌道の大部分を限られたPIPデータに導入することにより、ゼロショットシーンで成功率で41 \%の最大改善を達成できる一方で、操作スキルを新しいターゲットに転送する機能を備えていることが示されています。

要約(オリジナル)

The growing adoption of Vision-Language-Action (VLA) models in embodied AI intensifies the demand for diverse manipulation demonstrations. However, high costs associated with data collection often result in insufficient data coverage across all scenarios, which limits the performance of the models. It is observed that the spatial reasoning phase (SRP) in large workspace dominates the failure cases. Fortunately, this data can be collected with low cost, underscoring the potential of leveraging inexpensive data to improve model performance. In this paper, we introduce the DataPlatter method, a framework that decouples training trajectories into distinct task stages and leverages abundant easily collectible SRP data to enhance VLA model’s generalization. Through analysis we demonstrate that sub-task-specific training with additional SRP data with proper proportion can act as a performance catalyst for robot manipulation, maximizing the utilization of costly physical interaction phase (PIP) data. Experiments show that through introducing large proportion of cost-effective SRP trajectories into a limited set of PIP data, we can achieve a maximum improvement of 41\% on success rate in zero-shot scenes, while with the ability to transfer manipulation skill to novel targets.

arxiv情報

著者 Liming Zheng,Feng Yan,Fanfan Liu,Chengjian Feng,Yufeng Zhong,Yiyang Huang,Lin Ma
発行日 2025-03-25 10:11:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク