Unsupervised Learning of 3D Scene Flow from Monocular Camera

要約

シーンフローは3次元空間における点の動きを表現するもので、2次元画像における画素の動きを表現するオプティカルフローと対をなすものである。しかし、実シーンにおいてシーンフローのグランドトゥルースを得ることは困難であり、近年の研究では合成データを用いた学習が行われている。そのため、実データに基づく教師なし学習法を用いて、どのようにシーンフローネットワークを学習するかが非常に重要な意味を持つ。本論文では、単眼カメラで撮影した連続する2フレームの画像から、シーンフローのグランドトゥルースを除いた画像を学習する、新しい教師無し学習手法を提案する。本手法は、シーンフローネットワークを実世界のデータで学習するという目標を実現し、学習データとテストデータのギャップを埋め、学習に利用できるデータの幅を広げることができる。本論文では、シーンフローの教師なし学習は、主に(i)奥行き推定とカメラ姿勢推定、(ii)4種類の損失関数に基づくシーンフロー推定、の2つの部分から構成される。深度推定とカメラ姿勢推定は、連続する2フレーム間の深度マップとカメラ姿勢を求め、次のシーンフロー推定のためのさらなる情報を提供する。その後、深度整合性損失、動的静的整合性損失、面取り損失、ラプラシアン正則化損失を用いて、シーンフローネットワークの教師なし学習を実施した。本論文は、単眼カメラからの3次元シーンフローの教師なし学習を実現した初めての論文である。KITTIでの実験の結果、本手法の教師なし学習は、従来の反復近接点(ICP)、高速グローバル登録(FGR)と比較して、優れた性能を示すことが確認されました。ソースコードは、https://github.com/IRMVLab/3DUnMonoFlow で公開しています。

要約(オリジナル)

Scene flow represents the motion of points in the 3D space, which is the counterpart of the optical flow that represents the motion of pixels in the 2D image. However, it is difficult to obtain the ground truth of scene flow in the real scenes, and recent studies are based on synthetic data for training. Therefore, how to train a scene flow network with unsupervised methods based on real-world data shows crucial significance. A novel unsupervised learning method for scene flow is proposed in this paper, which utilizes the images of two consecutive frames taken by monocular camera without the ground truth of scene flow for training. Our method realizes the goal that training scene flow network with real-world data, which bridges the gap between training data and test data and broadens the scope of available data for training. Unsupervised learning of scene flow in this paper mainly consists of two parts: (i) depth estimation and camera pose estimation, and (ii) scene flow estimation based on four different loss functions. Depth estimation and camera pose estimation obtain the depth maps and camera pose between two consecutive frames, which provide further information for the next scene flow estimation. After that, we used depth consistency loss, dynamic-static consistency loss, Chamfer loss, and Laplacian regularization loss to carry out unsupervised training of the scene flow network. To our knowledge, this is the first paper that realizes the unsupervised learning of 3D scene flow from monocular camera. The experiment results on KITTI show that our method for unsupervised learning of scene flow meets great performance compared to traditional methods Iterative Closest Point (ICP) and Fast Global Registration (FGR). The source code is available at: https://github.com/IRMVLab/3DUnMonoFlow.

arxiv情報

著者 Guangming Wang,Xiaoyu Tian,Ruiqi Ding,Hesheng Wang
発行日 2022-06-08 04:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク