要約
奥行き認識は、幅広いロボット アプリケーションにとって重要です。
マルチフレームの自己教師あり深度推定手法は、大規模でラベルのない実世界のデータを活用できるため、研究の関心を集めています。
ただし、自己教師あり手法は静的なシーンの仮定に依存することが多く、動的な環境ではパフォーマンスが低下する傾向があります。
この問題に対処するために、我々は、連続入力フレーム間の時間的関係と、マルチフレームの自己教師あり深度推定方法における教師と生徒のネットワーク間の新しい蒸留スキームを活用するモーションアウェアロスを提案します。
具体的には、移動オブジェクトの空間的位置を入力フレームの時間的順序と関連付けて、オブジェクトの動きによって引き起こされるエラーを排除します。
一方で、教師ネットワークからの知識をより有効に活用するために、マルチフレーム法での元の蒸留スキームを強化します。
MAL は、マルチフレームの自己監視型単眼深度推定方法にシームレスに統合できるように設計された、新しいプラグ アンド プレイ モジュールです。
以前の最先端の手法に MAL を追加すると、KITTI ベンチマークと CityScapes ベンチマークで深度推定誤差がそれぞれ最大 4.2% と 10.8% 減少します。
要約(オリジナル)
Depth perception is crucial for a wide range of robotic applications. Multi-frame self-supervised depth estimation methods have gained research interest due to their ability to leverage large-scale, unlabeled real-world data. However, the self-supervised methods often rely on the assumption of a static scene and their performance tends to degrade in dynamic environments. To address this issue, we present Motion-Aware Loss, which leverages the temporal relation among consecutive input frames and a novel distillation scheme between the teacher and student networks in the multi-frame self-supervised depth estimation methods. Specifically, we associate the spatial locations of moving objects with the temporal order of input frames to eliminate errors induced by object motion. Meanwhile, we enhance the original distillation scheme in multi-frame methods to better exploit the knowledge from a teacher network. MAL is a novel, plug-and-play module designed for seamless integration into multi-frame self-supervised monocular depth estimation methods. Adding MAL into previous state-of-the-art methods leads to a reduction in depth estimation errors by up to 4.2% and 10.8% on KITTI and CityScapes benchmarks, respectively.
arxiv情報
著者 | Yup-Jiang Dong,Fang-Lue Zhang,Song-Hai Zhang |
発行日 | 2024-02-18 08:34:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google