FreDSNet: Joint Monocular Depth and Semantic Segmentation with Fast Fourier Convolutions

要約

この研究では、1枚のパノラマ画像から室内環境の意味的な3D理解を得るディープラーニングソリューションであるFreDSNetを紹介する。全方位画像は、環境全体に関する360度のコンテキスト情報を提供するため、シーン理解問題に取り組む際にタスク特有の利点を明らかにする。しかし、全方位画像固有の特性により、物体の正確な検出やセグメンテーション、あるいは良好な奥行き推定を得るためには、さらなる問題が生じる。これらの問題を克服するために、我々は各畳み込み層でより広い受容野を得るために、周波数領域の畳み込みを利用する。これらの畳み込みにより、全方位画像からの文脈情報全体を活用することができる。FreDSNetは、高速フーリエ畳み込みを利用することで、1枚のパノラマ画像から単眼的奥行き推定と意味的セグメンテーションを同時に行う初めてのネットワークである。我々の実験によれば、FreDSNetは、セマンティックセグメンテーションと奥行き推定において、特定の最先端手法と同等の性能を持つ。FreDSNetのコードは https://github.com/Sbrunoberenguel/FreDSNet で公開されています。

要約(オリジナル)

In this work we present FreDSNet, a deep learning solution which obtains semantic 3D understanding of indoor environments from single panoramas. Omnidirectional images reveal task-specific advantages when addressing scene understanding problems due to the 360-degree contextual information about the entire environment they provide. However, the inherent characteristics of the omnidirectional images add additional problems to obtain an accurate detection and segmentation of objects or a good depth estimation. To overcome these problems, we exploit convolutions in the frequential domain obtaining a wider receptive field in each convolutional layer. These convolutions allow to leverage the whole context information from omnidirectional images. FreDSNet is the first network that jointly provides monocular depth estimation and semantic segmentation from a single panoramic image exploiting fast Fourier convolutions. Our experiments show that FreDSNet has similar performance as specific state of the art methods for semantic segmentation and depth estimation. FreDSNet code is publicly available in https://github.com/Sbrunoberenguel/FreDSNet

arxiv情報

著者 Bruno Berenguel-Baeta,Jesus Bermudez-Cameo,Jose J. Guerrero
発行日 2024-02-05 07:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク