要約
視覚的場所認識 (VPR) は、多くの自律型および拡張/仮想現実システムの重要なコンポーネントです。
これにより、システムは大規模な環境で自身を確実にローカライズすることができます。
既存の VPR 手法は、大量の事前トレーニングと限られた一般化性を犠牲にして、魅力的なパフォーマンスを示しています。
これらの方法を目に見えない環境に導入すると、パフォーマンスが大幅に低下します。
この問題をターゲットとして、以前の環境のパフォーマンスを維持しながら新しい環境に適応する機能を備えた視覚的増分場所認識のための新しいアプローチである VIPeR を紹介します。
まず、単一環境内のパフォーマンスと複数の環境にわたる汎用性のバランスをとる適応型マイニング戦略を紹介します。
次に、生涯学習における壊滅的な物忘れを防ぐために、人間の記憶システムからインスピレーションを得て、VIPeR 用の新しい記憶バンクを設計しました。
私たちの記憶バンクには感覚記憶、作業記憶、長期記憶が含まれており、最初の 2 つは現在の環境に焦点を当てており、最後の 1 つは以前に訪れたすべての環境に焦点を当てています。
さらに、以前に学習した知識を明示的に保護するために、確率的な知識の蒸留を提案します。
私たちは、Oxford Robotcar、Nordland、TartanAir という 3 つの大規模データセットで提案した VIPeR を評価します。
比較のために、最初に単純な微調整でベースライン パフォーマンスを設定しました。
次に、いくつかの最近の生涯学習方法を比較します。
当社の VIPeR は、ほぼすべての面で優れたパフォーマンスを実現し、平均パフォーマンスで 13.65% という最大の向上を実現しました。
要約(オリジナル)
Visual place recognition (VPR) is an essential component of many autonomous and augmented/virtual reality systems. It enables the systems to robustly localize themselves in large-scale environments. Existing VPR methods demonstrate attractive performance at the cost of heavy pre-training and limited generalizability. When deployed in unseen environments, these methods exhibit significant performance drops. Targeting this issue, we present VIPeR, a novel approach for visual incremental place recognition with the ability to adapt to new environments while retaining the performance of previous environments. We first introduce an adaptive mining strategy that balances the performance within a single environment and the generalizability across multiple environments. Then, to prevent catastrophic forgetting in lifelong learning, we draw inspiration from human memory systems and design a novel memory bank for our VIPeR. Our memory bank contains a sensory memory, a working memory and a long-term memory, with the first two focusing on the current environment and the last one for all previously visited environments. Additionally, we propose a probabilistic knowledge distillation to explicitly safeguard the previously learned knowledge. We evaluate our proposed VIPeR on three large-scale datasets, namely Oxford Robotcar, Nordland, and TartanAir. For comparison, we first set a baseline performance with naive finetuning. Then, several more recent lifelong learning methods are compared. Our VIPeR achieves better performance in almost all aspects with the biggest improvement of 13.65% in average performance.
arxiv情報
著者 | Yuhang Ming,Minyang Xu,Xingrui Yang,Weicai Ye,Weihan Wang,Yong Peng,Weichen Dai,Wanzeng Kong |
発行日 | 2024-07-31 08:04:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google