要約
シミュレーションと現実のギャップは、シミュレーションにおけるロボット学習にとって長い間大きな課題となっており、学習したモデルを現実世界に展開することを妨げてきました。
これまでの研究では、このギャップを軽減するために主にドメインのランダム化とシステムの識別に焦点を当ててきました。
ただし、これらの方法は、シミュレーション エンジンやグラフィック エンジンの固有の制約によって制限されることがよくあります。
この研究では、ニューラル 3D シーンの再構築とシミュレーションのためのスケーラブルでコスト効率の高い real2sim パイプラインを通じて sim2real のギャップを効果的に埋める新しいフレームワークである Vid2Sim を提案します。
単眼ビデオを入力として与えると、Vid2Sim はフォトリアリスティックで物理的にインタラクト可能な 3D シミュレーション環境を生成し、複雑な都市環境におけるビジュアル ナビゲーション エージェントの強化学習を可能にします。
広範な実験により、Vid2Sim は、以前のシミュレーション方法で訓練されたエージェントと比較して、デジタル ツインおよび現実世界における都市ナビゲーションのパフォーマンスが成功率で 31.2% および 68.3% 大幅に向上することが実証されました。
要約(オリジナル)
Sim-to-real gap has long posed a significant challenge for robot learning in simulation, preventing the deployment of learned models in the real world. Previous work has primarily focused on domain randomization and system identification to mitigate this gap. However, these methods are often limited by the inherent constraints of the simulation and graphics engines. In this work, we propose Vid2Sim, a novel framework that effectively bridges the sim2real gap through a scalable and cost-efficient real2sim pipeline for neural 3D scene reconstruction and simulation. Given a monocular video as input, Vid2Sim can generate photorealistic and physically interactable 3D simulation environments to enable the reinforcement learning of visual navigation agents in complex urban environments. Extensive experiments demonstrate that Vid2Sim significantly improves the performance of urban navigation in the digital twins and real world by 31.2% and 68.3% in success rate compared with agents trained with prior simulation methods.
arxiv情報
著者 | Ziyang Xie,Zhizheng Liu,Zhenghao Peng,Wayne Wu,Bolei Zhou |
発行日 | 2025-01-12 03:01:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google