XVO: Generalized Visual Odometry via Cross-Modal Self-Training

要約

我々は、多様なデータセットや設定にわたって堅牢なオフザセルフ操作を備えた一般化された単眼視覚オドメトリ (VO) モデルをトレーニングするための半教師あり学習手法である XVO を提案します。
単一のデータセット内の既知のキャリブレーションを研究することが多い標準的な単眼 VO アプローチとは対照的に、XVO は、既知のカメラ パラメーターに依存せずに、ビジュアル シーンのセマンティクスから現実世界のスケールで相対的なポーズを復元する方法を効率的に学習します。
YouTube で入手可能な大量の制約のない異種混合ドライブレコーダービデオからの自己トレーニングを通じて、動き推定モデルを最適化します。
私たちの主な貢献は 2 つあります。
まず、汎用の直接 VO 回帰ネットワークを学習するための半教師ありトレーニングの利点を実験的に示します。
次に、セグメンテーション、フロー、深度、および音声補助予測タスクを含むマルチモーダル監視を実証し、VO タスクの一般化された表現を促進します。
具体的には、音声予測タスクが、特に非常に動的でドメイン外のビデオ データにおいて、ノイズの多い擬似ラベルを軽減しながら、半教師あり学習プロセスを大幅に強化することがわかりました。
私たちが提案する教師ネットワークは、マルチフレームの最適化やカメラ パラメーターの知識がないにもかかわらず、一般的に使用される KITTI ベンチマークで最先端のパフォーマンスを達成します。
提案されている半教師ありステップと組み合わせることで、XVO は、KITTI、nuScenes、Argoverse のさまざまな条件下で、微調整を行わずに既製の知識を伝達できることを実証します。

要約(オリジナル)

We propose XVO, a semi-supervised learning method for training generalized monocular Visual Odometry (VO) models with robust off-the-self operation across diverse datasets and settings. In contrast to standard monocular VO approaches which often study a known calibration within a single dataset, XVO efficiently learns to recover relative pose with real-world scale from visual scene semantics, i.e., without relying on any known camera parameters. We optimize the motion estimation model via self-training from large amounts of unconstrained and heterogeneous dash camera videos available on YouTube. Our key contribution is twofold. First, we empirically demonstrate the benefits of semi-supervised training for learning a general-purpose direct VO regression network. Second, we demonstrate multi-modal supervision, including segmentation, flow, depth, and audio auxiliary prediction tasks, to facilitate generalized representations for the VO task. Specifically, we find audio prediction task to significantly enhance the semi-supervised learning process while alleviating noisy pseudo-labels, particularly in highly dynamic and out-of-domain video data. Our proposed teacher network achieves state-of-the-art performance on the commonly used KITTI benchmark despite no multi-frame optimization or knowledge of camera parameters. Combined with the proposed semi-supervised step, XVO demonstrates off-the-shelf knowledge transfer across diverse conditions on KITTI, nuScenes, and Argoverse without fine-tuning.

arxiv情報

著者 Lei Lai,Zhongkai Shangguan,Jimuyang Zhang,Eshed Ohn-Bar
発行日 2023-10-08 16:32:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク