Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs

要約

知覚のためのディープラーニング手法は、多くのロボット システムの基礎です。
素晴らしいパフォーマンスをもたらす可能性があるにもかかわらず、現実世界のトレーニング データを取得するにはコストがかかり、一部のタスクでは非現実的に困難な場合があります。
ドメインのランダム化を使用したシミュレーションからリアルへの転送は潜在的な回避策を提供しますが、多くの場合、大規模な手動調整が必要となり、シミュレーションとリアルの間の分布シフトに対して脆弱なモデルが生成されます。
この研究では、現実世界のシーンとオブジェクトを対象としたトレーニング データを合成するためのリアルからシミュレーションへのパイプラインの中心となるオブジェクト構成可能な NeRF モデルである Composable Object Volume NeRF (COV-NeRF) を紹介します。
COV-NeRF は、実画像からオブジェクトを抽出して新しいシーンを構成し、フォトリアリスティックなレンダリングと、深度マップ、セグメンテーション マスク、メッシュなどのさまざまな種類の 2D および 3D 監視を生成します。
我々は、COV-NeRF が最新の NeRF 手法のレンダリング品質と一致し、さまざまな知覚モダリティにわたるシミュレーションと現実のギャップを迅速に埋めるために使用できることを示します。

要約(オリジナル)

Deep learning methods for perception are the cornerstone of many robotic systems. Despite their potential for impressive performance, obtaining real-world training data is expensive, and can be impractically difficult for some tasks. Sim-to-real transfer with domain randomization offers a potential workaround, but often requires extensive manual tuning and results in models that are brittle to distribution shift between sim and real. In this work, we introduce Composable Object Volume NeRF (COV-NeRF), an object-composable NeRF model that is the centerpiece of a real-to-sim pipeline for synthesizing training data targeted to scenes and objects from the real world. COV-NeRF extracts objects from real images and composes them into new scenes, generating photorealistic renderings and many types of 2D and 3D supervision, including depth maps, segmentation masks, and meshes. We show that COV-NeRF matches the rendering quality of modern NeRF methods, and can be used to rapidly close the sim-to-real gap across a variety of perceptual modalities.

arxiv情報

著者 Nikhil Mishra,Maximilian Sieb,Pieter Abbeel,Xi Chen
発行日 2024-03-07 00:00:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク