GlocalFuse-Depth: Fusing Transformers and CNNs for All-day Self-supervised Monocular Depth Estimation

要約

近年、自己教師あり単眼深度推定は、深度注釈を解放し、標準ベンチマークで顕著な結果を達成したため、多くの注目を集めています。
ただし、既存の方法のほとんどは、昼間または夜間の画像のいずれかにのみ焦点を当てているため、昼間と夜間の画像の間のドメインのシフトが大きいため、他のドメインでのパフォーマンスが低下します。
この問題に対処するために、この論文では、終日画像の自己教師付き深度推定のための GlocalFuse-Depth という名前の 2 分岐ネットワークを提案します。
入力画像ペアの昼間と夜間の画像は、それぞれ CNN ブランチと Transformer ブランチの 2 つのブランチに送られます。ここでは、きめ細かな詳細とグローバルな依存関係の両方を効率的にキャプチャできます。
さらに、2 つのブランチからの多次元機能を融合するために、新しい融合モジュールが提案されています。
広範な実験により、GlocalFuse-Depth が Oxford RobotCar データセットの終日画像に対して最先端の結果を達成することが実証されており、これは私たちの方法の優位性を証明しています。

要約(オリジナル)

In recent years, self-supervised monocular depth estimation has drawn much attention since it frees of depth annotations and achieved remarkable results on standard benchmarks. However, most of existing methods only focus on either daytime or nighttime images, thus their performance degrades on the other domain because of the large domain shift between daytime and nighttime images. To address this problem, in this paper we propose a two-branch network named GlocalFuse-Depth for self-supervised depth estimation of all-day images. The daytime and nighttime image in input image pair are fed into the two branches: CNN branch and Transformer branch, respectively, where both fine-grained details and global dependency can be efficiently captured. Besides, a novel fusion module is proposed to fuse multi-dimensional features from the two branches. Extensive experiments demonstrate that GlocalFuse-Depth achieves state-of-the-art results for all-day images on the Oxford RobotCar dataset, which proves the superiority of our method.

arxiv情報

著者 Zezheng Zhang,Ryan K. Y. Chan,Kenneth K. Y. Wong
発行日 2023-02-20 10:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク