要約
マルチフレーム手法は、特徴マッチングを通じて時空間情報を集約することにより、単一フレーム手法よりも単眼の奥行き推定を向上させます。
ただし、時空間の特徴により、動的なシーンでは精度が低下します。
パフォーマンスを向上させるために、最近の方法では、特徴マッチングや動的シーンのための複雑なアーキテクチャを提案する傾向があります。
この論文では、シンプルな学習フレームワークと設計された機能拡張が優れたパフォーマンスにつながることを示します。
(1) 幾何学的説明可能性を備えた新しい動的物体検出方法を提案する。
検出された動的オブジェクトはトレーニング中に除外されるため、静的環境の仮定が保証され、マルチフレーム深度推定の精度低下の問題が軽減されます。
(2) マルチスケール特徴融合は、マルチフレーム深度ネットワークでの特徴マッチングのために提案されており、これにより、特にカメラの動きが大きいフレーム間の特徴マッチングが改善されます。
(3)堅牢な教師ネットワークと信頼性保証を備えた堅牢な知識蒸留が提案されており、テスト中に計算の複雑さを増加させることなくマルチフレーム深度推定を改善します。
実験は、私たちが提案した方法がマルチフレーム深度推定のパフォーマンスを大幅に向上させることを示しています。
要約(オリジナル)
Multi-frame methods improve monocular depth estimation over single-frame approaches by aggregating spatial-temporal information via feature matching. However, the spatial-temporal feature leads to accuracy degradation in dynamic scenes. To enhance the performance, recent methods tend to propose complex architectures for feature matching and dynamic scenes. In this paper, we show that a simple learning framework, together with designed feature augmentation, leads to superior performance. (1) A novel dynamic objects detecting method with geometry explainability is proposed. The detected dynamic objects are excluded during training, which guarantees the static environment assumption and relieves the accuracy degradation problem of the multi-frame depth estimation. (2) Multi-scale feature fusion is proposed for feature matching in the multi-frame depth network, which improves feature matching, especially between frames with large camera motion. (3) The robust knowledge distillation with a robust teacher network and reliability guarantee is proposed, which improves the multi-frame depth estimation without computation complexity increase during the test. The experiments show that our proposed methods achieve great performance improvement on the multi-frame depth estimation.
arxiv情報
著者 | Jiquan Zhong,Xiaolin Huang,Xiao Yu |
発行日 | 2023-12-19 05:28:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google