要約
教師なし単眼深度推定は,低いアノテーションコストと教師あり手法に匹敵する素晴らしい精度により,その大きな可能性が多くの研究者によって示されてきた.そのため,近年では,より複雑なネットワーク構造の設計や,セマンティックセグメンテーションなどの教師あり情報活用に主眼が置かれた研究が行われている.これらの手法は、程度の差こそあれ、ターゲット画像と参照画像の間の再構築された関係を利用することでモデルを最適化する。しかし、これまでの手法では、この画像再構成最適化がローカルミニマムに陥りやすいことが証明されている。本論文では、事前に学習したFlow-Netから事前知識を用いて最適化を導くことを核としたアイデアである。そして、教師なし単眼視奥行き推定のボトルネックが、FG-Depthと名付けた我々のシンプルかつ効果的なフレームワークによって打破できることを示す。特に、(i)モデルの能力を制限する典型的な測光損失を置き換えるフロー蒸留損失、(ii)学習損失にノイズをもたらす無効な画素を除去する事前フローに基づくマスクを提案する。広範な実験により各要素の有効性を実証し、我々のアプローチはKITTIとNYU-Depth-v2データセットの両方で最先端の結果を達成した。
要約(オリジナル)
The great potential of unsupervised monocular depth estimation has been demonstrated by many works due to low annotation cost and impressive accuracy comparable to supervised methods. To further improve the performance, recent works mainly focus on designing more complex network structures and exploiting extra supervised information, e.g., semantic segmentation. These methods optimize the models by exploiting the reconstructed relationship between the target and reference images in varying degrees. However, previous methods prove that this image reconstruction optimization is prone to get trapped in local minima. In this paper, our core idea is to guide the optimization with prior knowledge from pretrained Flow-Net. And we show that the bottleneck of unsupervised monocular depth estimation can be broken with our simple but effective framework named FG-Depth. In particular, we propose (i) a flow distillation loss to replace the typical photometric loss that limits the capacity of the model and (ii) a prior flow based mask to remove invalid pixels that bring the noise in training loss. Extensive experiments demonstrate the effectiveness of each component, and our approach achieves state-of-the-art results on both KITTI and NYU-Depth-v2 datasets.
arxiv情報
著者 | Junyu Zhu,Lina Liu,Yong Liu,Wanlong Li,Feng Wen,Hongbo Zhang |
発行日 | 2023-02-07 09:48:34+00:00 |
arxivサイト | arxiv_id(pdf) |