要約
VA-DepthNet は、単一画像深度予測 (SIDP) 問題に対するシンプルで効果的かつ正確なディープ ニューラル ネットワーク アプローチです。
提案されたアプローチは、この問題に対して古典的な一次変分制約を使用することを提唱しています。
SIDP 向けの最先端のディープ ニューラル ネットワーク手法は、監視された設定で画像からシーンの深度を学習しますが、シーンの規則性など、厳格なシーン空間における貴重な不変性と事前確率を見落とすことがよくあります。
この論文の主な貢献は、SIDP タスクのニューラル ネットワーク設計における古典的で十分に根拠のある変分制約の利点を明らかにすることです。
一般的なエンコーダー/デコーダー ベースのネットワーク アーキテクチャ設計と共に、シーン空間に一次変分制約を課すと、教師あり SIDP タスクに優れた結果が得られることが示されています。
課された一次変分制約により、ネットワークはシーン空間の深度勾配、つまり規則性を認識します。
この論文は、KITTI、NYU Depth V2、SUN RGB-D などのいくつかのベンチマーク データセットに対する広範な評価とアブレーション分析を通じて、提案されたアプローチの有用性を示しています。
テスト時のVA-DepthNetは、従来技術と比較して深さ予測精度のかなりの改善を示し、シーン空間の高周波領域でも正確である。
このホワイト ペーパーの執筆時点では、KITTI の深度予測評価セット ベンチマークでテストした場合、VA-DepthNet というラベルの付いた私たちの方法は、最先端の結果を示し、公開されたアプローチの中で最高のパフォーマンスを示しています。
要約(オリジナル)
We introduce VA-DepthNet, a simple, effective, and accurate deep neural network approach for the single-image depth prediction (SIDP) problem. The proposed approach advocates using classical first-order variational constraints for this problem. While state-of-the-art deep neural network methods for SIDP learn the scene depth from images in a supervised setting, they often overlook the invaluable invariances and priors in the rigid scene space, such as the regularity of the scene. The paper’s main contribution is to reveal the benefit of classical and well-founded variational constraints in the neural network design for the SIDP task. It is shown that imposing first-order variational constraints in the scene space together with popular encoder-decoder-based network architecture design provides excellent results for the supervised SIDP task. The imposed first-order variational constraint makes the network aware of the depth gradient in the scene space, i.e., regularity. The paper demonstrates the usefulness of the proposed approach via extensive evaluation and ablation analysis over several benchmark datasets, such as KITTI, NYU Depth V2, and SUN RGB-D. The VA-DepthNet at test time shows considerable improvements in depth prediction accuracy compared to the prior art and is accurate also at high-frequency regions in the scene space. At the time of writing this paper, our method — labeled as VA-DepthNet, when tested on the KITTI depth-prediction evaluation set benchmarks, shows state-of-the-art results, and is the top-performing published approach.
arxiv情報
著者 | Ce Liu,Suryansh Kumar,Shuhang Gu,Radu Timofte,Luc Van Gool |
発行日 | 2023-02-13 17:55:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google