要約
場所の認識は、SLAM (Simultaneous Localization and Mapping) と空間認識の鍵となります。
しかし、実際の場所の認識では、視点の変更や通りの外観など、画像のバリエーションによって誤った予測が行われることがよくあります。
不確実性の推定を場所認識のライフ サイクルに統合することは、場所認識のパフォーマンスに対する変動の影響を軽減するための有望な方法です。
ただし、この流れにおける既存の不確実性推定アプローチは、計算効率が悪いか (モンテカルロ ドロップアウトなど)、精度が低下するという犠牲を払っています。
この論文では、STUN を提案します。これは、場所を予測し、入力画像が与えられたときに予測の不確実性を推定することを同時に学習する独学フレームワークです。
この目的のために、まず、標準的なメトリクス学習パイプラインを使用して教師ネットをトレーニングし、埋め込み事前確率を生成します。
次に、事前トレーニング済みの教師ネットによって監視され、分散ブランチが追加されたスチューデント ネットがトレーニングされ、埋め込み事前確率が微調整され、サンプルごとに不確実性が推定されます。
オンライン推論段階では、スチューデント ネットのみを使用して、不確実性と併せて場所予測を生成します。
不確実性に無知な場所認識システムと比較すると、私たちのフレームワークは、予測精度を犠牲にすることなく無料で不確実性を推定することを特徴としています。
大規模な Pittsburgh30k データセットに関する実験結果は、STUN が認識精度と不確実性推定の品質の両方で最先端の方法よりも優れていることを示しています。
要約(オリジナル)
Place recognition is key to Simultaneous Localization and Mapping (SLAM) and spatial perception. However, a place recognition in the wild often suffers from erroneous predictions due to image variations, e.g., changing viewpoints and street appearance. Integrating uncertainty estimation into the life cycle of place recognition is a promising method to mitigate the impact of variations on place recognition performance. However, existing uncertainty estimation approaches in this vein are either computationally inefficient (e.g., Monte Carlo dropout) or at the cost of dropped accuracy. This paper proposes STUN, a self-teaching framework that learns to simultaneously predict the place and estimate the prediction uncertainty given an input image. To this end, we first train a teacher net using a standard metric learning pipeline to produce embedding priors. Then, supervised by the pretrained teacher net, a student net with an additional variance branch is trained to finetune the embedding priors and estimate the uncertainty sample by sample. During the online inference phase, we only use the student net to generate a place prediction in conjunction with the uncertainty. When compared with place recognition systems that are ignorant to the uncertainty, our framework features the uncertainty estimation for free without sacrificing any prediction accuracy. Our experimental results on the large-scale Pittsburgh30k dataset demonstrate that STUN outperforms the state-of-the-art methods in both recognition accuracy and the quality of uncertainty estimation.
arxiv情報
著者 | Kaiwen Cai,Chris Xiaoxuan Lu,Xiaowei Huang |
発行日 | 2022-09-13 07:17:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google