要約
学習ベースのビジュアル オドメトリ (VO) アルゴリズムは、大容量モデルと大量の注釈付きデータの恩恵を受けて、一般的な静的シーンで驚くべきパフォーマンスを達成しますが、動的で人口の多い環境では失敗する傾向があります。
セマンティック セグメンテーションは主に、カメラの動きを推定する前に動的な関連付けを破棄するために使用されますが、静的な特徴を破棄するという代償を払い、目に見えないカテゴリにスケールアップするのは困難です。
このホワイト ペーパーでは、カメラのエゴ モーションとモーション セグメンテーションの間の相互依存性を活用し、単一の学習ベースのフレームワークで両方を共同で改良できることを示します。
特に、動的環境を扱う最初の教師あり学習ベースの VO メソッドである DytanVO を紹介します。
リアルタイムで 2 つの連続する単眼フレームを取得し、反復的な方法でカメラの自我の動きを予測します。
私たちの方法は、現実世界の動的環境で最先端の VO ソリューションよりも ATE で平均 27.7% の改善を達成し、バックエンドで軌道を最適化する動的ビジュアル SLAM システム間でも競争力のあるパフォーマンスを発揮します。
豊富な目に見えない環境での実験も、私たちの方法の一般化可能性を示しています。
要約(オリジナル)
Learning-based visual odometry (VO) algorithms achieve remarkable performance on common static scenes, benefiting from high-capacity models and massive annotated data, but tend to fail in dynamic, populated environments. Semantic segmentation is largely used to discard dynamic associations before estimating camera motions but at the cost of discarding static features and is hard to scale up to unseen categories. In this paper, we leverage the mutual dependence between camera ego-motion and motion segmentation and show that both can be jointly refined in a single learning-based framework. In particular, we present DytanVO, the first supervised learning-based VO method that deals with dynamic environments. It takes two consecutive monocular frames in real-time and predicts camera ego-motion in an iterative fashion. Our method achieves an average improvement of 27.7% in ATE over state-of-the-art VO solutions in real-world dynamic environments, and even performs competitively among dynamic visual SLAM systems which optimize the trajectory on the backend. Experiments on plentiful unseen environments also demonstrate our method’s generalizability.
arxiv情報
著者 | Shihao Shen,Yilin Cai,Wenshan Wang,Sebastian Scherer |
発行日 | 2023-01-17 09:33:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google