FreDSNet: Joint Monocular Depth and Semantic Segmentation with Fast Fourier Convolutions

要約

本研究では、1枚のパノラマ画像から室内環境の意味的な3次元理解を得る深層学習ソリューションであるFreDSNetを紹介する。全方位画像は、環境全体に関する360度の文脈情報を提供するため、シーン理解問題に取り組む際にタスク固有の利点を明らかにする。しかし、全方位画像が持つ固有の特性により、物体の正確な検出やセグメンテーション、あるいは適切な奥行き推定を行う上で、さらなる問題が生じる。これらの問題を克服するために、我々は各畳み込み層でより広い受容野を得るために、周波数領域での畳み込みを利用する。これらの畳み込みにより、全方位画像から得られる文脈情報全体を利用することができる。FreDSNetは、高速フーリエ畳み込みを利用して、1枚のパノラマ画像から単眼的奥行き推定と意味的セグメンテーションを同時に実現した最初のネットワークである。我々の実験では、FreDSNetは意味的セグメンテーションと深度推定のための特定の最先端手法と同等の性能を持つことが示された。FreDSNetのコードは、https://github.com/Sbrunoberenguel/FreDSNet で公開されています。

要約(オリジナル)

In this work we present FreDSNet, a deep learning solution which obtains semantic 3D understanding of indoor environments from single panoramas. Omnidirectional images reveal task-specific advantages when addressing scene understanding problems due to the 360-degree contextual information about the entire environment they provide. However, the inherent characteristics of the omnidirectional images add additional problems to obtain an accurate detection and segmentation of objects or a good depth estimation. To overcome these problems, we exploit convolutions in the frequential domain obtaining a wider receptive field in each convolutional layer. These convolutions allow to leverage the whole context information from omnidirectional images. FreDSNet is the first network that jointly provides monocular depth estimation and semantic segmentation from a single panoramic image exploiting fast Fourier convolutions. Our experiments show that FreDSNet has similar performance as specific state of the art methods for semantic segmentation and depth estimation. FreDSNet code is publicly available in https://github.com/Sbrunoberenguel/FreDSNet

arxiv情報

著者 Bruno Berenguel-Baeta,Jesus Bermudez-Cameo,Jose J. Guerrero
発行日 2022-10-04 13:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク