DCDepth: Progressive Monocular Depth Estimation in Discrete Cosine Domain

要約

この論文では、長年にわたって行われてきた単眼の奥行き推定タスクのための新しいフレームワークである DCDepth を紹介します。
空間領域における従来のピクセルごとの深度推定を超えて、私たちのアプローチは、離散コサイン領域に変換した後に深度パッチの周波数係数を推定します。
この独自の定式化により、各パッチ内の局所的な深度相関のモデリングが可能になります。
重要なのは、周波数変換により、深度情報がさまざまな周波数成分に分離され、低周波成分がコアシーン構造をカプセル化し、高周波成分がより詳細な側面を詳細に表現することです。
この分解は、グローバル シーン コンテキストを確立するための低周波成分の予測から始まり、高周波成分の予測を通じて局所的な詳細を連続的に改良する、当社の漸進的戦略の基礎を形成します。
NYU-Depth-V2、TOFDC、KITTI データセットに対して包括的な実験を実施し、DCDepth の最先端のパフォーマンスを実証します。
コードは https://github.com/w2kun/DCDepth で入手できます。

要約(オリジナル)

In this paper, we introduce DCDepth, a novel framework for the long-standing monocular depth estimation task. Moving beyond conventional pixel-wise depth estimation in the spatial domain, our approach estimates the frequency coefficients of depth patches after transforming them into the discrete cosine domain. This unique formulation allows for the modeling of local depth correlations within each patch. Crucially, the frequency transformation segregates the depth information into various frequency components, with low-frequency components encapsulating the core scene structure and high-frequency components detailing the finer aspects. This decomposition forms the basis of our progressive strategy, which begins with the prediction of low-frequency components to establish a global scene context, followed by successive refinement of local details through the prediction of higher-frequency components. We conduct comprehensive experiments on NYU-Depth-V2, TOFDC, and KITTI datasets, and demonstrate the state-of-the-art performance of DCDepth. Code is available at https://github.com/w2kun/DCDepth.

arxiv情報

著者 Kun Wang,Zhiqiang Yan,Junkai Fan,Wanlu Zhu,Xiang Li,Jun Li,Jian Yang
発行日 2024-10-22 14:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク