要約
ビデオを使用した大規模な事前トレーニングは、ロボット学習に効果的であることが証明されています。
ただし、そのようなデータで事前に訓練されたモデルは、人間の手と異なるロボットの視覚的ギャップの間に大きな視覚的なギャップがあるため、ロボット学習の最適ではありません。
これを改善するために、H2Rを提案します。H2Rは、ヒトの手キーポイントを検出し、シミュレーションのロボットモーションを合成し、複合材料をエゴセントリックビデオにレンダリングした単純なデータ増強技術を提案します。
このプロセスは、トレーニング前の人間とロボットの実施形態の視覚的ギャップを明示的に橋渡しします。
H2Rを適用して、EGO4DやSSV2などの大規模なエゴセントリックヒトビデオデータセットを拡張し、人間の手をシミュレートされたロボットアームに置き換えて、ロボット中心のトレーニングデータを生成します。
これに基づいて、複数のロボット実施形態(グリッパー/リーファンド、フランカを備えたUR5)およびデータソース(SSV2、EGO4D)をカバーする1Mスケールデータセットのファミリーを構築および放出します。
増強パイプラインの有効性を検証するために、ロボットレンダリングフレームのセマンティックな忠実度を元の人間の行動に定量的に評価するクリップベースの画像テキスト類似性メトリックを導入します。
GripperとLeaphand End-Effectorを装備したUR5ロボットを備えたRobomimic、RLBench、PushtおよびReal-World Manipulationタスクの3つのシミュレーションベンチマークにわたってH2Rを検証します。
H2Rは一貫して下流の成功率を改善し、シミュレーションで5.0%-10.2%、さまざまな視覚エンコーダとポリシー学習方法にわたる実際のタスクで6.7%-23.3%の増加をもたらします。
これらの結果は、H2Rがヒトドメインとロボットドメイン間の視覚的矛盾を緩和することにより、ロボットポリシーの一般化能力を改善することを示しています。
要約(オリジナル)
Large-scale pre-training using videos has proven effective for robot learning. However, the models pre-trained on such data can be suboptimal for robot learning due to the significant visual gap between human hands and those of different robots. To remedy this, we propose H2R, a simple data augmentation technique that detects human hand keypoints, synthesizes robot motions in simulation, and composites rendered robots into egocentric videos. This process explicitly bridges the visual gap between human and robot embodiments during pre-training. We apply H2R to augment large-scale egocentric human video datasets such as Ego4D and SSv2, replacing human hands with simulated robotic arms to generate robot-centric training data. Based on this, we construct and release a family of 1M-scale datasets covering multiple robot embodiments (UR5 with gripper/Leaphand, Franka) and data sources (SSv2, Ego4D). To verify the effectiveness of the augmentation pipeline, we introduce a CLIP-based image-text similarity metric that quantitatively evaluates the semantic fidelity of robot-rendered frames to the original human actions. We validate H2R across three simulation benchmarks: Robomimic, RLBench and PushT and real-world manipulation tasks with a UR5 robot equipped with Gripper and Leaphand end-effectors. H2R consistently improves downstream success rates, yielding gains of 5.0%-10.2% in simulation and 6.7%-23.3% in real-world tasks across various visual encoders and policy learning methods. These results indicate that H2R improves the generalization ability of robotic policies by mitigating the visual discrepancies between human and robot domains.
arxiv情報
著者 | Guangrun Li,Yaoxu Lyu,Zhuoyang Liu,Chengkai Hou,Jieyu Zhang,Shanghang Zhang |
発行日 | 2025-05-26 16:33:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google