要約
自己教師ありシナリオでの単眼深度推定 (MDE) は、グラウンド トゥルース深度の要件を控えているため、有望な方法として浮上しています。
継続的な努力にもかかわらず、特にすべてのトレーニング サンプルが 1 台のカメラからのものである場合、MDE はスケールの変更に敏感です。
一方、カメラの動きにより、予測された深度とスケールの変化の間に強い結合が生じるため、さらに悪化します。
このホワイト ペーパーでは、自己教師あり MDE のスケール不変アプローチを提示します。このアプローチでは、スケール依存機能 (SSF) が分離され、スケール不変機能 (SIF) がさらに強化されます。
具体的には、カメラのズームプロセスを模倣することによるシンプルだが効果的なデータ拡張が SSF を分離するために提案され、モデルをスケーリングの変更に対して堅牢にします。
さらに、動的クロスアテンションモジュールは、マルチスケールのクロスアテンション機能を適応的に融合することにより、SIF をブーストするように設計されています。
KITTI データセットでの広範な実験により、デタッチとブースティングの戦略が MDE で相互に補完的であり、私たちのアプローチが既存の作品に対して 0.097 から 0.090 w.r.t 絶対相対誤差の新しい最先端のパフォーマンスを達成することが実証されました。
コードは近日公開予定です。
要約(オリジナル)
Monocular depth estimation (MDE) in the self-supervised scenario has emerged as a promising method as it refrains from the requirement of ground truth depth. Despite continuous efforts, MDE is still sensitive to scale changes especially when all the training samples are from one single camera. Meanwhile, it deteriorates further since camera movement results in heavy coupling between the predicted depth and the scale change. In this paper, we present a scale-invariant approach for self-supervised MDE, in which scale-sensitive features (SSFs) are detached away while scale-invariant features (SIFs) are boosted further. To be specific, a simple but effective data augmentation by imitating the camera zooming process is proposed to detach SSFs, making the model robust to scale changes. Besides, a dynamic cross-attention module is designed to boost SIFs by fusing multi-scale cross-attention features adaptively. Extensive experiments on the KITTI dataset demonstrate that the detaching and boosting strategies are mutually complementary in MDE and our approach achieves new State-of-The-Art performance against existing works from 0.097 to 0.090 w.r.t absolute relative error. The code will be made public soon.
arxiv情報
著者 | Peizhe Jiang,Wei Yang,Xiaoqing Ye,Xiao Tan,Meng Wu |
発行日 | 2023-02-20 08:11:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google