要約
測光差は、ラベル付けされていない単眼ビデオから深度とカメラ ポーズを推定するためにニューラル ネットワークをトレーニングするための監視信号として広く使用されています。
ただし、シーン内のオクルージョンと移動オブジェクトは、基礎となる静的シナリオの仮定に違反するため、このアプローチはモデルの最適化に悪影響を及ぼします。
さらに、テクスチャのない領域のピクセルまたは識別力の低いピクセルは、モデルのトレーニングを妨げます。
これらの問題を解決するために、本論文では、アフィン変換とビュー合成によってそれぞれ生成される流れ場と深度構造の違いを利用して、移動オブジェクトとオクルージョンを扱います。
次に、ネットワークを追加せずに、よりセマンティックなコンテキスト情報を使用してフィーチャ間の違いを測定することにより、モデルの最適化に対するテクスチャのない領域の影響を軽減します。
さらに、各サブ目的関数で双方向性コンポーネントが使用されますが、画像のペアは 1 回だけ推論されるため、オーバーヘッドの削減に役立ちます。
広範な実験と視覚的分析により、提案された方法の有効性が実証されました。これは、同じ条件下で追加の補助情報を導入することなく、既存の最先端の自己教師あり方法よりも優れています。
要約(オリジナル)
Photometric differences are widely used as supervision signals to train neural networks for estimating depth and camera pose from unlabeled monocular videos. However, this approach is detrimental for model optimization because occlusions and moving objects in a scene violate the underlying static scenario assumption. In addition, pixels in textureless regions or less discriminative pixels hinder model training. To solve these problems, in this paper, we deal with moving objects and occlusions utilizing the difference of the flow fields and depth structure generated by affine transformation and view synthesis, respectively. Secondly, we mitigate the effect of textureless regions on model optimization by measuring differences between features with more semantic and contextual information without adding networks. In addition, although the bidirectionality component is used in each sub-objective function, a pair of images are reasoned about only once, which helps reduce overhead. Extensive experiments and visual analysis demonstrate the effectiveness of the proposed method, which outperform existing state-of-the-art self-supervised methods under the same conditions and without introducing additional auxiliary information.
arxiv情報
著者 | Fei Wang,Jun Cheng,Penglei Liu |
発行日 | 2022-12-12 12:18:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google