要約
Neural Radiance Fields (NeRF) などの暗黙的表現は、新しいビューの合成に非常に効果的であることが示されています。
ただし、これらのモデルは通常、トレーニングのために手動で慎重に人間のデータを収集する必要があります。
この論文では、自律具現化エージェントを使用して NeRF を訓練するために必要なデータを収集する方法である AutoNeRF を紹介します。
私たちの方法により、エージェントは目に見えない環境を効率的に探索し、その経験を利用して暗黙的なマップ表現を自律的に構築できます。
私たちは、手作りのフロンティアベースの探査、訓練された高レベルのプランナーと古典的な低レベルのパスフォロワで構成されるエンドツーエンドのモジュール式アプローチなど、さまざまな探査戦略の影響を比較します。
この問題に合わせて調整されたさまざまな報酬関数を使用してこれらのモデルをトレーニングし、4 つの異なる下流タスク (古典的な視点レンダリング、マップ再構成、計画、ポーズの洗練) で学習された表現の品質を評価します。
経験的な結果は、目に見えない環境での経験のたった 1 つのエピソードを使用して、アクティブに収集されたデータに基づいて NeRF をトレーニングでき、いくつかの下流ロボット タスクに使用できること、およびモジュール式トレーニング済み探査モデルが他の古典的なベースラインやエンドツーエンドのベースラインよりも優れていることを示しています。
。
最後に、AutoNeRF は大規模なシーンを再構築できるため、生成された 3D 環境モデルをシミュレータにロードして対象のポリシーを微調整できるため、シーン固有の適応を実行するのに便利なツールであることを示します。
要約(オリジナル)
Implicit representations such as Neural Radiance Fields (NeRF) have been shown to be very effective at novel view synthesis. However, these models typically require manual and careful human data collection for training. In this paper, we present AutoNeRF, a method to collect data required to train NeRFs using autonomous embodied agents. Our method allows an agent to explore an unseen environment efficiently and use the experience to build an implicit map representation autonomously. We compare the impact of different exploration strategies including handcrafted frontier-based exploration, end-to-end and modular approaches composed of trained high-level planners and classical low-level path followers. We train these models with different reward functions tailored to this problem and evaluate the quality of the learned representations on four different downstream tasks: classical viewpoint rendering, map reconstruction, planning, and pose refinement. Empirical results show that NeRFs can be trained on actively collected data using just a single episode of experience in an unseen environment, and can be used for several downstream robotic tasks, and that modular trained exploration models outperform other classical and end-to-end baselines. Finally, we show that AutoNeRF can reconstruct large-scale scenes, and is thus a useful tool to perform scene-specific adaptation as the produced 3D environment models can be loaded into a simulator to fine-tune a policy of interest.
arxiv情報
著者 | Pierre Marza,Laetitia Matignon,Olivier Simonin,Dhruv Batra,Christian Wolf,Devendra Singh Chaplot |
発行日 | 2023-12-22 13:55:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google