VIPeR: Visual Incremental Place Recognition with Adaptive Mining and Continual Learning

要約

Visual Place認識(VPR)は、多くの自律的および拡張/仮想現実システムの重要なコンポーネントです。
これにより、システムは大規模な環境で自分自身を堅牢にローカライズできます。
既存のVPRメソッドは、トレーニング前の重いコストと限られた一般化可能性を犠牲にして魅力的なパフォーマンスを示しています。
目に見えない環境に展開されると、これらの方法は大幅なパフォーマンスドロップを示します。
この問題をターゲットにして、以前の環境のパフォーマンスを維持しながら新しい環境に適応する能力を備えた視覚的漸進的な場所認識のための新しいアプローチであるViperを提示します。
最初に、単一の環境内のパフォーマンスと複数の環境にわたる一般化可能性のバランスをとる適応マイニング戦略を紹介します。
次に、生涯学習における壊滅的な忘却を防ぐために、私たちは人間の記憶システムからインスピレーションを引き出し、バイパーのための新しい記憶バンクを設計します。
私たちのメモリバンクには、感覚メモリ、作業記憶、長期記憶が含まれており、最初の2つは現在の環境に焦点を当て、以前に訪問したすべての環境の最後の環境に焦点を当てています。
さらに、以前に学んだ知識を明示的に保護するために、確率的知識の蒸留を提案します。
提案されたViperを3つの大規模なデータセット、つまりOxford Robotcar、Nordland、およびTartanairで評価します。
比較のために、最初に素朴なFinetuningでベースラインパフォーマンスを設定しました。
次に、最近の生涯学習方法をいくつか比較します。
私たちのViperは、ほぼすべての側面でより良いパフォーマンスを達成し、平均パフォーマンスで13.65%の最大の改善があります。

要約(オリジナル)

Visual place recognition (VPR) is an essential component of many autonomous and augmented/virtual reality systems. It enables the systems to robustly localize themselves in large-scale environments. Existing VPR methods demonstrate attractive performance at the cost of heavy pre-training and limited generalizability. When deployed in unseen environments, these methods exhibit significant performance drops. Targeting this issue, we present VIPeR, a novel approach for visual incremental place recognition with the ability to adapt to new environments while retaining the performance of previous environments. We first introduce an adaptive mining strategy that balances the performance within a single environment and the generalizability across multiple environments. Then, to prevent catastrophic forgetting in lifelong learning, we draw inspiration from human memory systems and design a novel memory bank for our VIPeR. Our memory bank contains a sensory memory, a working memory and a long-term memory, with the first two focusing on the current environment and the last one for all previously visited environments. Additionally, we propose a probabilistic knowledge distillation to explicitly safeguard the previously learned knowledge. We evaluate our proposed VIPeR on three large-scale datasets, namely Oxford Robotcar, Nordland, and TartanAir. For comparison, we first set a baseline performance with naive finetuning. Then, several more recent lifelong learning methods are compared. Our VIPeR achieves better performance in almost all aspects with the biggest improvement of 13.65% in average performance.

arxiv情報

著者 Yuhang Ming,Minyang Xu,Xingrui Yang,Weicai Ye,Weihan Wang,Yong Peng,Weichen Dai,Wanzeng Kong
発行日 2025-02-12 11:15:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク