XVO: Generalized Visual Odometry via Cross-Modal Self-Training

要約

XVOは、様々なデータセットや設定において、ロバストなoff-the-self動作を行う一般化された単眼VO(Visual Odometry)モデルを学習するための半教師付き学習法である。単一のデータセット内で既知のキャリブレーションを学習することが多い標準的な単眼VOアプローチとは対照的に、XVOは、視覚的なシーンセマンティクスから、すなわち、既知のカメラパラメータに依存することなく、実世界のスケールで相対的な姿勢を回復することを効率的に学習する。我々は、YouTubeで入手可能な大量の制約のない異種ダッシュカメラ動画から自己学習により、動き推定モデルを最適化する。我々の重要な貢献は2つある。第一に、汎用の直接VO回帰ネットワークを学習するための半教師付き学習の利点を実証的に示す。第二に、セグメンテーション、フロー、深度、音声補助予測タスクを含むマルチモーダル監視を実証し、VOタスクの汎化表現を促進する。特に、音声予測タスクは、特に高度に動的で領域外のビデオデータにおいて、ノイズの多い擬似ラベルを緩和しつつ、半教師付き学習プロセスを大幅に強化することがわかった。我々の提案する教師ネットワークは、マルチフレーム最適化やカメラパラメータの知識がないにも関わらず、一般的に使用されるKITTIベンチマークにおいて最先端の性能を達成する。提案する半教師付きステップと組み合わせることで、XVOはKITTI、nuScenes、Argoverseにおいて、微調整なしで、多様な条件下ですぐに使える知識伝達を実証する。

要約(オリジナル)

We propose XVO, a semi-supervised learning method for training generalized monocular Visual Odometry (VO) models with robust off-the-self operation across diverse datasets and settings. In contrast to standard monocular VO approaches which often study a known calibration within a single dataset, XVO efficiently learns to recover relative pose with real-world scale from visual scene semantics, i.e., without relying on any known camera parameters. We optimize the motion estimation model via self-training from large amounts of unconstrained and heterogeneous dash camera videos available on YouTube. Our key contribution is twofold. First, we empirically demonstrate the benefits of semi-supervised training for learning a general-purpose direct VO regression network. Second, we demonstrate multi-modal supervision, including segmentation, flow, depth, and audio auxiliary prediction tasks, to facilitate generalized representations for the VO task. Specifically, we find audio prediction task to significantly enhance the semi-supervised learning process while alleviating noisy pseudo-labels, particularly in highly dynamic and out-of-domain video data. Our proposed teacher network achieves state-of-the-art performance on the commonly used KITTI benchmark despite no multi-frame optimization or knowledge of camera parameters. Combined with the proposed semi-supervised step, XVO demonstrates off-the-shelf knowledge transfer across diverse conditions on KITTI, nuScenes, and Argoverse without fine-tuning.

arxiv情報

著者 Lei Lai,Zhongkai Shangguan,Jimuyang Zhang,Eshed Ohn-Bar
発行日 2023-10-02 18:01:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク