FSNet: Redesign Self-Supervised MonoDepth for Full-Scale Depth Prediction for Autonomous Driving

要約

タイトル:自己教示のモノクル深度を完全スケールの自動運転に向けて再設計するFSNet

要約:

– 単眼画像から正確な深度を予測することは、低コストのロボットアプリケーションや自動運転にとって重要である。
– 本研究では、慣性計測から得られるフレーム間ポーズを利用して、自動運転シーンにおける正確なスケールに配慮した深度予測の包括的な自己教示フレームワークを提案する。
– 特に、フルスケールの深度予測ネットワークであるFSNetを紹介している。FSNetは既存の自己教示モデルに対して以下の4つの重要な改善がある。
1. 運転シーンでの深度予測の安定したトレーニングのためのマルチチャンネル出力表現。
2. オプティカルフローベースのマスクで動的なオブジェクトを除去する。
3. 訓練過程を増強するための自己蒸留トレーニング戦略。
4. ビジュアルオドメトリからの結果を統合するテスト時間の最適化ベースのポストプロセシングアルゴリズム。
– このフレームワークにより、1つのキャリブレーションされたカメラだけでロボットや車両はトレーニング画像フレームとカメラポーズのシーケンスを収集し、追加のラベリング作業や3Dデータなしで環境の正確な3D深度を推定できる。
– KITTIデータセット、KITTI-360データセット、nuScenesデータセットでの広範な実験により、FSNetの潜在能力が示され、詳細な結果は\url{https://sites.google.com/view/fsnet/home}で提供されている。

要約(オリジナル)

Predicting accurate depth with monocular images is important for low-cost robotic applications and autonomous driving. This study proposes a comprehensive self-supervised framework for accurate scale-aware depth prediction on autonomous driving scenes utilizing inter-frame poses obtained from inertial measurements. In particular, we introduce a Full-Scale depth prediction network named FSNet. FSNet contains four important improvements over existing self-supervised models: (1) a multichannel output representation for stable training of depth prediction in driving scenarios, (2) an optical-flow-based mask designed for dynamic object removal, (3) a self-distillation training strategy to augment the training process, and (4) an optimization-based post-processing algorithm in test time, fusing the results from visual odometry. With this framework, robots and vehicles with only one well-calibrated camera can collect sequences of training image frames and camera poses, and infer accurate 3D depths of the environment without extra labeling work or 3D data. Extensive experiments on the KITTI dataset, KITTI-360 dataset and the nuScenes dataset demonstrate the potential of FSNet. More visualizations are presented in \url{https://sites.google.com/view/fsnet/home}

arxiv情報

著者 Yuxuan Liu,Zhenhua Xu,Huaiyang Huang,Lujia Wang,Ming Liu
発行日 2023-04-21 03:17:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク