GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

要約

具体化されたファンデーションモデルは、ゼロショットの一般化、スケーラビリティ、およびトレーニング後の少数による新しいタスクへの適応性について、注目を集めています。
ただし、既存のモデルは現実世界のデータに大きく依存しており、これは収集するのに費用がかかり、労働集約的です。
合成データは費用対効果の高い代替品を提供しますが、その可能性はほとんど露出度の低いままです。
このギャップを埋めるために、大規模な合成アクションデータを使用して、ビジョン言語アクションモデルのトレーニングの実現可能性を完全に調査します。
シミュレーションで生成された10億フレームのロボット把持データセットであるSyngrasp-1Bをキュレートし、ドメインのランダム化を広範囲にします。
これに基づいて、把握タスクの基礎モデルとして、大規模な合成アクションデータを前提としたVLAモデルであるGRASPVLAを提示します。
GRASPVLAは、オートレーフレフな知覚タスクとフローマッチングベースのアクション生成を、合成アクションデータとインターネットセマンティクスデータに関する共同トレーニングを可能にします。
この設計は、SIMからリアルのギャップを緩和し、より広範なインターネットで覆われたオブジェクトへの学習アクションの転送を容易にし、把握におけるオープンボキャブラリーの一般化を達成するのに役立ちます。
現実世界とシミュレーションベンチマーク全体の広範な評価は、GraspVLAの高度なゼロショットの一般化可能性と特定の人間の好みに対する少数のショット適応性を示しています。
コミュニティに利益をもたらすために、Syngrasp-1Bデータセットと事前に訓練された重量をリリースします。

要約(オリジナル)

Embodied foundation models are gaining increasing attention for their zero-shot generalization, scalability, and adaptability to new tasks through few-shot post-training. However, existing models rely heavily on real-world data, which is costly and labor-intensive to collect. Synthetic data offers a cost-effective alternative, yet its potential remains largely underexplored. To bridge this gap, we explore the feasibility of training Vision-Language-Action models entirely with large-scale synthetic action data. We curate SynGrasp-1B, a billion-frame robotic grasping dataset generated in simulation with photorealistic rendering and extensive domain randomization. Building on this, we present GraspVLA, a VLA model pretrained on large-scale synthetic action data as a foundational model for grasping tasks. GraspVLA integrates autoregressive perception tasks and flow-matching-based action generation into a unified Chain-of-Thought process, enabling joint training on synthetic action data and Internet semantics data. This design helps mitigate sim-to-real gaps and facilitates the transfer of learned actions to a broader range of Internet-covered objects, achieving open-vocabulary generalization in grasping. Extensive evaluations across real-world and simulation benchmarks demonstrate GraspVLA’s advanced zero-shot generalizability and few-shot adaptability to specific human preferences. We will release SynGrasp-1B dataset and pre-trained weights to benefit the community.

arxiv情報

著者 Shengliang Deng,Mi Yan,Songlin Wei,Haixin Ma,Yuxin Yang,Jiayi Chen,Zhiqi Zhang,Taoyu Yang,Xuheng Zhang,Heming Cui,Zhizheng Zhang,He Wang
発行日 2025-05-06 06:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク