Cross-Domain Synthetic-to-Real In-the-Wild Depth and Normal Estimation for 3D Scene Understanding

要約

合成データから学習して、現実世界の制御されていない設定で遭遇する自然の全方向 3D シーンの深度と法線を推定するクロスドメイン推論手法を紹介します。
この目的を達成するために、UNet とボトルネック トランスフォーマー要素を組み合わせて一貫したシーンの法線と深度を予測するアーキテクチャである UBotNet を導入します。
また、建物、街路、多様な植生など、さまざまな屋外環境を表す 24,335 枚の全方位画像を含む OmniHorizo​​n 合成データセットも紹介します。
このデータセットは、広大で本物のような仮想空間から生成され、変化する照明条件、異なる時間帯、歩行者、車両などの動的なシーン要素を含んでいます。
私たちの実験では、UBotNet が既存のモデルと比較して深度推定と法線推定の精度が大幅に向上していることがわかりました。
最後に、合成 OmniHorizo​​n データセットのみでトレーニングされた UBotNet を使用して、実際の屋外画像におけるクロスドメイン合成から実際の深度および法線推定を検証し、合成データセットと提案されたネットワークの両方が現実世界のシーン理解アプリケーションに使用できる可能性を示します。

要約(オリジナル)

We present a cross-domain inference technique that learns from synthetic data to estimate depth and normals for in-the-wild omnidirectional 3D scenes encountered in real-world uncontrolled settings. To this end, we introduce UBotNet, an architecture that combines UNet and Bottleneck Transformer elements to predict consistent scene normals and depth. We also introduce the OmniHorizon synthetic dataset containing 24,335 omnidirectional images that represent a wide variety of outdoor environments, including buildings, streets, and diverse vegetation. This dataset is generated from expansive, lifelike virtual spaces and encompasses dynamic scene elements, such as changing lighting conditions, different times of day, pedestrians, and vehicles. Our experiments show that UBotNet achieves significantly improved accuracy in depth estimation and normal estimation compared to existing models. Lastly, we validate cross-domain synthetic-to-real depth and normal estimation on real outdoor images using UBotNet trained solely on our synthetic OmniHorizon dataset, demonstrating the potential of both the synthetic dataset and the proposed network for real-world scene understanding applications.

arxiv情報

著者 Jay Bhanushali,Manivannan Muniyandi,Praneeth Chakravarthula
発行日 2024-06-07 16:26:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク