Exploring the Impacts from Datasets to Monocular Depth Estimation (MDE) Models with MineNavi

要約

ディープラーニングに基づく現在のコンピュータービジョンタスクは、特にオプティカルフローセグメンテーションや深度推定などの一部の高密度推定タスクで、モデルのトレーニングまたはテスト用の注釈付きの大量のデータを必要とします。
実際には、密度推定タスクの手動ラベル付けは非常に困難であるか、不可能でさえあり、データセットのシーンは狭い範囲に制限されることが多く、コミュニティの発展を劇的に制限します。
この欠点を克服するために、面倒な手作業を必要とせずに拡張可能なデータセットを取得するための合成データセット生成方法を提案します。
この方法により、航空機のナビゲーションアプリケーションで深度を推定するための正確なグラウンドトゥルースと一致する航空機の最初の視点からのビデオ映像を含むMineNaviと呼ばれるデータセットを構築します。
また、MineNaviデータセットを介した事前トレーニングにより、深度推定モデルのパフォーマンスが向上し、実際のシーンデータへのモデルの収束が高速化されることを証明するための定量的実験も提供します。
合成データセットは、ディープモデルのトレーニングプロセスで実際のデータセットと同様の効果があるため、照明条件やモーションモードなど、データセット内のさまざまな要因の影響を示すために、単眼深度推定方法を使用した追加の実験も提供します。

要約(オリジナル)

Current computer vision tasks based on deep learning require a huge amount of data with annotations for model training or testing, especially in some dense estimation tasks, such as optical flow segmentation and depth estimation. In practice, manual labeling for dense estimation tasks is very difficult or even impossible, and the scenes of the dataset are often restricted to a small range, which dramatically limits the development of the community. To overcome this deficiency, we propose a synthetic dataset generation method to obtain the expandable dataset without burdensome manual workforce. By this method, we construct a dataset called MineNavi containing video footages from first-perspective-view of the aircraft matched with accurate ground truth for depth estimation in aircraft navigation application. We also provide quantitative experiments to prove that pre-training via our MineNavi dataset can improve the performance of depth estimation model and speed up the convergence of the model on real scene data. Since the synthetic dataset has a similar effect to the real-world dataset in the training process of deep model, we also provide additional experiments with monocular depth estimation method to demonstrate the impact of various factors in our dataset such as lighting conditions and motion mode.

arxiv情報

著者 Xiangtong Wang,Binbin Liang,Menglong Yang,Wei Li
発行日 2022-06-28 13:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク