要約
周囲のシーンを理解することは、自動運転やナビゲーションなどのいくつかのアプリケーションにとって不可欠です。
ピクセルごとのラベルを使用して実世界の画像データを取得することは困難ですが、既存の正確な合成画像データセットは、主に固定照明とシーンの参加者がいる屋内空間に焦点を当てているため、屋外シナリオへの適用が大幅に制限されています。
この作業では、OmniHorizon を紹介します。これは、建物、通り、多様な植生で構成される幅広い屋内および屋外スペースで構成される 24,335 の全方向ビューを持つ合成データセットです。
私たちのデータセットは、照明、1 日のさまざまな時間設定、歩行者、車両などの動的なシーン コンポーネントも考慮しています。
さらに、私たちのデータセットを使用して、野生の 3D シーン深度と法線推定方法のための、学習された合成から実際のクロスドメイン推論方法も示します。
この目的のために、シーン一貫性のある法線を推定するために、UNet とボトルネック トランスフォーマーに基づくアーキテクチャである UBotNet を提案します。
スキップ接続を使用する U-Net などのいくつかの既存のネットワークと比較して、UBotNet が大幅に改善された深度精度 (4.6%) と通常の推定 (5.75%) を達成することを示します。
最後に、OmniHorizon データセットで純粋にトレーニングされた UBotNet を使用して、実世界の画像の実際の深度と法線推定を示し、シーン理解のための提案されたデータセットとネットワークの約束を示します。
要約(オリジナル)
Understanding the ambient scene is imperative for several applications such as autonomous driving and navigation. While obtaining real-world image data with per-pixel labels is challenging, existing accurate synthetic image datasets primarily focus on indoor spaces with fixed lighting and scene participants, thereby severely limiting their application to outdoor scenarios. In this work we introduce OmniHorizon, a synthetic dataset with 24,335 omnidirectional views comprising of a broad range of indoor and outdoor spaces consisting of buildings, streets, and diverse vegetation. Our dataset also accounts for dynamic scene components including lighting, different times of a day settings, pedestrians, and vehicles. Furthermore, we also demonstrate a learned synthetic-to-real cross-domain inference method for in-the-wild 3D scene depth and normal estimation method using our dataset. To this end, we propose UBotNet, an architecture based on a UNet and a Bottleneck Transformer, to estimate scene-consistent normals. We show that UBotNet achieves significantly improved depth accuracy (4.6%) and normal estimation (5.75%) compared to several existing networks such as U-Net with skip-connections. Finally, we demonstrate in-the-wild depth and normal estimation on real-world images with UBotNet trained purely on our OmniHorizon dataset, showing the promise of proposed dataset and network for scene understanding.
arxiv情報
| 著者 | Jay Bhanushali,Praneeth Chakravarthula,Manivannan Muniyandi |
| 発行日 | 2022-12-09 18:40:12+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google