NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation

要約

一枚の画像から正確な奥行きを推定することは、本質的に曖昧で非論理的であるため、挑戦的である。最近の研究では、深度マップを直接回帰するために、ますます複雑で強力なネットワークを設計しているが、我々はCRFsの最適化の道を取る。CRFは計算コストが高いため、通常、グラフ全体ではなく、近傍領域間で実行される。完全連結型CRFの可能性を活用するために、入力をウィンドウに分割し、各ウィンドウ内でFC-CRFs最適化を行うことで、計算量を削減し、FC-CRFsを実現可能にする。グラフ内のノード間の関係をよりよく捉えるために、マルチヘッド注目メカニズムを利用してマルチヘッドポテンシャル関数を計算し、これをネットワークに与えて最適化された深度マップを出力する。そして、このニューラルウィンドウFC-CRFsモジュールをデコーダとして、ビジョン変換器をエンコーダとして、ボトムアップ-トップダウン構造を構築する。実験の結果、KITTIとNYUv2の両データセットにおいて、本手法は従来手法と比較して、全てのメトリクスで大幅に性能が向上することが実証された。さらに、提案手法はパノラマ画像に直接適用することができ、MatterPort3Dデータセットにおいて、全ての従来のパノラマ手法を上回る性能を発揮する。プロジェクトページ: https://weihaosky.github.io/newcrfs.

要約(オリジナル)

Estimating the accurate depth from a single image is challenging since it is inherently ambiguous and ill-posed. While recent works design increasingly complicated and powerful networks to directly regress the depth map, we take the path of CRFs optimization. Due to the expensive computation, CRFs are usually performed between neighborhoods rather than the whole graph. To leverage the potential of fully-connected CRFs, we split the input into windows and perform the FC-CRFs optimization within each window, which reduces the computation complexity and makes FC-CRFs feasible. To better capture the relationships between nodes in the graph, we exploit the multi-head attention mechanism to compute a multi-head potential function, which is fed to the networks to output an optimized depth map. Then we build a bottom-up-top-down structure, where this neural window FC-CRFs module serves as the decoder, and a vision transformer serves as the encoder. The experiments demonstrate that our method significantly improves the performance across all metrics on both the KITTI and NYUv2 datasets, compared to previous methods. Furthermore, the proposed method can be directly applied to panorama images and outperforms all previous panorama methods on the MatterPort3D dataset. Project page: https://weihaosky.github.io/newcrfs.

arxiv情報

著者 Weihao Yuan,Xiaodong Gu,Zuozhuo Dai,Siyu Zhu,Ping Tan
発行日 2022-06-06 08:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク