要約
遠隔操作による実世界のロボットシミュレーションデータの取得は、時間と労力がかかることで知られている。近年、ロボット学習やシミュレーションにおいて、行動駆動型の生成モデルが広く採用されるようになってきた。しかし、これらの手法で使用される行動シーケンスは、大域的に粗い整列であるため、制御精度が制限され、汎化が不十分であることが多い。これらの限界に対処するために、我々は、ビデオ生成のためのより正確な意味的・幾何学的ガイダンスを提供するために、きめ細かい表現として4次元意味的占有シーケンスを利用する、占有中心ロボットビデオ生成フレームワークであるORVを提案する。ORVは、占有率ベースの表現を活用することで、シミュレーションデータをフォトリアリスティックなロボット映像にシームレスに変換することを可能にし、同時に高い時間的一貫性と正確な制御性を保証する。さらに、本フレームワークは、ロボットの把持操作のマルチビュー映像の同時生成をサポートしており、これは下流のロボット学習タスクにとって重要な機能である。広範な実験結果は、ORVが様々なデータセットやサブタスクにおいて、既存のベースライン手法を一貫して上回ることを実証している。デモ、コード、モデル: https://orangesodahub.github.io/ORV
要約(オリジナル)
Acquiring real-world robotic simulation data through teleoperation is notoriously time-consuming and labor-intensive. Recently, action-driven generative models have gained widespread adoption in robot learning and simulation, as they eliminate safety concerns and reduce maintenance efforts. However, the action sequences used in these methods often result in limited control precision and poor generalization due to their globally coarse alignment. To address these limitations, we propose ORV, an Occupancy-centric Robot Video generation framework, which utilizes 4D semantic occupancy sequences as a fine-grained representation to provide more accurate semantic and geometric guidance for video generation. By leveraging occupancy-based representations, ORV enables seamless translation of simulation data into photorealistic robot videos, while ensuring high temporal consistency and precise controllability. Furthermore, our framework supports the simultaneous generation of multi-view videos of robot gripping operations – an important capability for downstream robotic learning tasks. Extensive experimental results demonstrate that ORV consistently outperforms existing baseline methods across various datasets and sub-tasks. Demo, Code and Model: https://orangesodahub.github.io/ORV
arxiv情報
著者 | Xiuyu Yang,Bohan Li,Shaocong Xu,Nan Wang,Chongjie Ye,Zhaoxi Chen,Minghan Qin,Yikang Ding,Xin Jin,Hang Zhao,Hao Zhao |
発行日 | 2025-06-03 17:00:32+00:00 |
arxivサイト | arxiv_id(pdf) |