OmniHorizon: In-the-Wild Outdoors Depth and Normal Estimation from Synthetic Omnidirectional Dataset

要約

自律走行やナビゲーションなどのアプリケーションにおいて、周囲の様子を理解することは不可欠である。しかし、既存の高精度合成画像データセットは、照明やシーン参加者が固定された屋内空間に主に焦点を当てているため、屋外シナリオへの適用には大きな制限があります。本研究では、建物、道路、植生など様々な屋内外の空間からなる24,335ビューの全方位合成データセットOmniHorizonを提案する。このデータセットでは、照明、時間帯、歩行者、車両などの動的なシーンコンポーネントも考慮されている。さらに、本データセットを用いて、実環境における3次元シーンの奥行きと法線推定法のための学習型合成-実空間横断推論手法も実証する。この目的のために、我々はUNetとBottleneck Transformerに基づくアーキテクチャであるUBotNetを提案し、シーンコンシステントな法線を推定する。UBotNetは、スキップ接続を持つU-Netなどの既存のネットワークと比較して、奥行き精度(4.6%)と法線推定精度(5.75%)を大幅に向上させることを示す。最後に、我々のOmniHorizonデータセットのみで学習させたUBotNetを用いて、実世界の画像における深度と法線の推定を行い、シーン理解のための提案データセットとネットワークの有望性を示す。

要約(オリジナル)

Understanding the ambient scene is imperative for several applications such as autonomous driving and navigation. While obtaining real-world image data with per-pixel labels is challenging, existing accurate synthetic image datasets primarily focus on indoor spaces with fixed lighting and scene participants, thereby severely limiting their application to outdoor scenarios. In this work we introduce OmniHorizon, a synthetic dataset with 24,335 omnidirectional views comprising of a broad range of indoor and outdoor spaces consisting of buildings, streets, and diverse vegetation. Our dataset also accounts for dynamic scene components including lighting, different times of a day settings, pedestrians, and vehicles. Furthermore, we also demonstrate a learned synthetic-to-real cross-domain inference method for in-the-wild 3D scene depth and normal estimation method using our dataset. To this end, we propose UBotNet, an architecture based on a UNet and a Bottleneck Transformer, to estimate scene-consistent normals. We show that UBotNet achieves significantly improved depth accuracy (4.6%) and normal estimation (5.75%) compared to several existing networks such as U-Net with skip-connections. Finally, we demonstrate in-the-wild depth and normal estimation on real-world images with UBotNet trained purely on our OmniHorizon dataset, showing the promise of proposed dataset and network for scene understanding.

arxiv情報

著者 Jay Bhanushali,Praneeth Chakravarthula,Manivannan Muniyandi
発行日 2023-01-09 11:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク