要約
多様なカメラや環境でゼロショット一般化を達成する新しい視覚臭気(VO)アルゴリズムであるZerovoを紹介し、事前定義または静的カメラのキャリブレーションセットアップに依存する既存の方法の制限を克服します。
私たちのアプローチには、3つの主要なイノベーションが組み込まれています。
まず、推定された深さとカメラのパラメーターでノイズを処理できるキャリブレーションのない幾何学的なネットワーク構造を設計します。
第二に、セマンティック情報を注入して、以前に見えなかったドメインへの堅牢な特徴抽出と一般化を強化する言語ベースの事前を導入します。
第三に、不明なデータを使用して新しいシーンに繰り返し適応する柔軟で半監視されたトレーニングパラダイムを開発し、多様な現実世界のシナリオ全体に一般化するモデルの能力をさらに高めます。
複雑な自律運転のコンテキストを分析し、3つの標準ベンチマーク、Kitti、Nuscenes、およびArgoverse 2の以前の方法に対する30%以上の改善と、Grand Theft Auto(GTA)から派生した新たに導入された高忠実度の合成データセットを実証します。
微調整やカメラのキャリブレーションを必要とせずに、私たちの作業はVOの適用性を広げ、実際の展開に大規模な汎用ソリューションを提供します。
要約(オリジナル)
We introduce ZeroVO, a novel visual odometry (VO) algorithm that achieves zero-shot generalization across diverse cameras and environments, overcoming limitations in existing methods that depend on predefined or static camera calibration setups. Our approach incorporates three main innovations. First, we design a calibration-free, geometry-aware network structure capable of handling noise in estimated depth and camera parameters. Second, we introduce a language-based prior that infuses semantic information to enhance robust feature extraction and generalization to previously unseen domains. Third, we develop a flexible, semi-supervised training paradigm that iteratively adapts to new scenes using unlabeled data, further boosting the models’ ability to generalize across diverse real-world scenarios. We analyze complex autonomous driving contexts, demonstrating over 30% improvement against prior methods on three standard benchmarks, KITTI, nuScenes, and Argoverse 2, as well as a newly introduced, high-fidelity synthetic dataset derived from Grand Theft Auto (GTA). By not requiring fine-tuning or camera calibration, our work broadens the applicability of VO, providing a versatile solution for real-world deployment at scale.
arxiv情報
著者 | Lei Lai,Zekai Yin,Eshed Ohn-Bar |
発行日 | 2025-06-09 17:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google