Exploring the Mutual Influence between Self-Supervised Single-Frame and Multi-Frame Depth Estimation

要約

タイトル:自己教師付きの1フレームとマルチフレーム深度推定の相互影響の探索

要約:
– 単純にラベルがないモノクルビデオを使用してトレーニングしている両方の自己教師付き1フレームとマルチフレーム深度推定方法がある。
– 1フレームの方法は主に外観ベースの特徴に依存し、一方、マルチフレームの方法は幾何学的手掛かりに集中するため、彼らが利用する情報は異なる。
– 1フレームの深度をマルチフレーム深度の改善に利用する手法は存在するが、これらの手法は、1フレームの深度とマルチフレーム深度の違いを活用してマルチフレーム深度を改善することができず、また、マルチフレーム深度を利用して1フレームの深度モデルを最適化することができない。
– 自己教師付きの1フレームとマルチフレーム深度推定手法の相互影響を完全に利用するために、新しい自己教師付きトレーニングフレームワークを提案する。1フレーム深度によって誘導されるピクセル単位の適応的深度サンプリングモジュールを最初に導入して、マルチフレームモデルをトレーニングする。次に、最小再投影ベースの蒸留ロスを活用して、マルチフレーム深度ネットワークからの知識を1フレームネットワークに転送して、1フレーム深度を改善する。最後に、改善された1フレーム深度を優先して、マルチフレーム深度推定のパフォーマンスをさらに向上させる。
– KITTIとCityscapesデータセットでの実験結果は、自己教師付きモノクル環境で既存手法を上回ることを示している。

要約(オリジナル)

Although both self-supervised single-frame and multi-frame depth estimation methods only require unlabeled monocular videos for training, the information they leverage varies because single-frame methods mainly rely on appearance-based features while multi-frame methods focus on geometric cues. Considering the complementary information of single-frame and multi-frame methods, some works attempt to leverage single-frame depth to improve multi-frame depth. However, these methods can neither exploit the difference between single-frame depth and multi-frame depth to improve multi-frame depth nor leverage multi-frame depth to optimize single-frame depth models. To fully utilize the mutual influence between single-frame and multi-frame methods, we propose a novel self-supervised training framework. Specifically, we first introduce a pixel-wise adaptive depth sampling module guided by single-frame depth to train the multi-frame model. Then, we leverage the minimum reprojection based distillation loss to transfer the knowledge from the multi-frame depth network to the single-frame network to improve single-frame depth. Finally, we regard the improved single-frame depth as a prior to further boost the performance of multi-frame depth estimation. Experimental results on the KITTI and Cityscapes datasets show that our method outperforms existing approaches in the self-supervised monocular setting.

arxiv情報

著者 Jie Xiang,Yun Wang,Lifeng An,Haiyang Liu,Jian Liu
発行日 2023-04-25 09:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク