GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction

要約

神経放射フィールドの最近の進歩により、大規模なシーンの現実的なデジタル化が可能になっていますが、画像キャプチャのプロセスには依然として時間と労力がかかります。
以前の研究では、アクティブ 3D 再構築のための Next-Best-View (NBV) ポリシーを使用して、このプロセスを自動化しようとしました。
ただし、既存の NBV ポリシーは、手作りの基準、限られたアクション スペース、またはシーンごとに最適化された表現に大きく依存しています。
これらの制約により、データセット間の一般化可能性が制限されます。
これらを克服するために、エンドツーエンドの一般化可能な NBV ポリシーである GenNBV を提案します。
私たちのポリシーは強化学習 (RL) ベースのフレームワークを採用し、典型的な限られたアクション空間を 5D 自由空間に拡張します。
これにより、エージェント ドローンはあらゆる視点からスキャンできるようになり、トレーニング中に目に見えないジオメトリと対話することもできます。
データセット間の一般化可能性を高めるために、幾何学的表現、意味論的表現、およびアクション表現を含む、新しいマルチソース状態の埋め込みも提案します。
この NBV ポリシーを評価するために、Houses3K および OmniObject3D データセットを備えた Isaac Gym シミュレーターを使用してベンチマークを確立します。
実験の結果、私たちのポリシーは、これらのデータセットからの目に見えない建物スケールのオブジェクトに対してそれぞれ 98.26% と 97.12% のカバレッジ率を達成し、以前のソリューションを上回るパフォーマンスを示しました。

要約(オリジナル)

While recent advances in neural radiance field enable realistic digitization for large-scale scenes, the image-capturing process is still time-consuming and labor-intensive. Previous works attempt to automate this process using the Next-Best-View (NBV) policy for active 3D reconstruction. However, the existing NBV policies heavily rely on hand-crafted criteria, limited action space, or per-scene optimized representations. These constraints limit their cross-dataset generalizability. To overcome them, we propose GenNBV, an end-to-end generalizable NBV policy. Our policy adopts a reinforcement learning (RL)-based framework and extends typical limited action space to 5D free space. It empowers our agent drone to scan from any viewpoint, and even interact with unseen geometries during training. To boost the cross-dataset generalizability, we also propose a novel multi-source state embedding, including geometric, semantic, and action representations. We establish a benchmark using the Isaac Gym simulator with the Houses3K and OmniObject3D datasets to evaluate this NBV policy. Experiments demonstrate that our policy achieves a 98.26% and 97.12% coverage ratio on unseen building-scale objects from these datasets, respectively, outperforming prior solutions.

arxiv情報

著者 Xiao Chen,Quanyi Li,Tai Wang,Tianfan Xue,Jiangmiao Pang
発行日 2024-07-30 06:05:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク