要約
テレロ新ターのデモから学んだ視覚運動ポリシーは、長いデータ収集、高コスト、限られたデータの多様性などの課題に直面しています。
既存のアプローチは、RGBスペースでの画像観測を増強するか、物理シミュレータに基づいて実際のパイプラインを使用することにより、これらの問題に対処します。
ただし、前者は2Dデータ増強に制約されていますが、後者は不正確な幾何学的再構成によって引き起こされる不正確な物理シミュレーションに苦しんでいます。
このペーパーでは、3Dガウスを直接操作することにより、多様で視覚的に現実的なデモを生成する新しい方法であるRobosplatを紹介します。
具体的には、3Dガウスのスプラッティング(3DG)を通じてシーンを再構築し、再構築されたシーンを直接編集し、6種類の一般化にわたってデータを5つの手法で拡張します。
異なるオブジェクトのポーズの等量変換。
さまざまな照明条件の視覚属性編集。
新しいカメラの視点のための新しいビュー合成。
多様なオブジェクトタイプの3Dコンテンツ生成。
包括的な実世界の実験は、Robosplatが多様な妨害の下で視覚運動政策の一般化を大幅に強化することを示しています。
特に、追加の2Dデータ増強を伴う数百の実際のデモンストレーションでトレーニングされたポリシーは、平均成功率57.2%を達成しますが、RobosPlatは、現実世界の6種類の一般化にわたって1ショットの設定で87.8%を達成します。
要約(オリジナル)
Visuomotor policies learned from teleoperated demonstrations face challenges such as lengthy data collection, high costs, and limited data diversity. Existing approaches address these issues by augmenting image observations in RGB space or employing Real-to-Sim-to-Real pipelines based on physical simulators. However, the former is constrained to 2D data augmentation, while the latter suffers from imprecise physical simulation caused by inaccurate geometric reconstruction. This paper introduces RoboSplat, a novel method that generates diverse, visually realistic demonstrations by directly manipulating 3D Gaussians. Specifically, we reconstruct the scene through 3D Gaussian Splatting (3DGS), directly edit the reconstructed scene, and augment data across six types of generalization with five techniques: 3D Gaussian replacement for varying object types, scene appearance, and robot embodiments; equivariant transformations for different object poses; visual attribute editing for various lighting conditions; novel view synthesis for new camera perspectives; and 3D content generation for diverse object types. Comprehensive real-world experiments demonstrate that RoboSplat significantly enhances the generalization of visuomotor policies under diverse disturbances. Notably, while policies trained on hundreds of real-world demonstrations with additional 2D data augmentation achieve an average success rate of 57.2%, RoboSplat attains 87.8% in one-shot settings across six types of generalization in the real world.
arxiv情報
著者 | Sizhe Yang,Wenye Yu,Jia Zeng,Jun Lv,Kerui Ren,Cewu Lu,Dahua Lin,Jiangmiao Pang |
発行日 | 2025-04-17 17:59:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google