Generalized Contrastive Optimization of Siamese Networks for Place Recognition

要約

タイトル:Siameseネットワークの一般化されたコントラスティブ最適化による場所認識

要約:

– コンピュータビジョンにおける視覚的な場所認識は、カメラベースの位置特定およびナビゲーションシステムの主要なコンポーネントであり、難しいタスクです。
– CNN(畳み込みニューラルネットワーク)は高い結果と良い汎化性能を実現しており、通常、2枚または3枚の画像のペアまたはトリプレットを、似ているかどうかのバイナリラベルで実現されています。
– しかし、2枚の画像の類似度はバイナリではなく継続的なものであるため、コントラスティブ損失ファンクションに従って単純な二項分類ではそれがはできない。
– そこで提案される一般化されたコントラスティブ損失(GCL)ファンクションは、画像の類似度を連続的な計測方法として利用し、siamese CNNの学習に使用されます。また、グラフ構造化した対同義語辞書を用いて、自動的に画像のペアを「完全に同じ」、「ほとんど同じ」、「異なる」のラベルと共にアノテーションする3つのテクニックを提案します。
– これにより、GCLファンクションを使用してトレーニングされたsiamese CNNは、バイナリカウンターパートよりも優れた性能を発揮し、MSLS、TB-Places、7Scenesの3つのデータセットで訓練されたモデルは、NetVLAD、NetVLAD-SARE、AP-GeM、Patch-NetVLADなどの最新の方法を上回ります。
– GCLファンクションを使用してsiameseネットワークをトレーニングすることは、複雑なペアマイニングを必要としません。
– 研究結果は、(i)コントラスティブ損失関数よりもGCLファンクションが優れていること、(ii)自動アノテーションデータセットが必要である理由、(iii)MSLSデータセットで最高精度が得られることを示しています。

要約(オリジナル)

Visual place recognition is a challenging task in computer vision and a key component of camera-based localization and navigation systems. Recently, Convolutional Neural Networks (CNNs) achieved high results and good generalization capabilities. They are usually trained using pairs or triplets of images labeled as either similar or dissimilar, in a binary fashion. In practice, the similarity between two images is not binary, but continuous. Furthermore, training these CNNs is computationally complex and involves costly pair and triplet mining strategies. We propose a Generalized Contrastive loss (GCL) function that relies on image similarity as a continuous measure, and use it to train a siamese CNN. Furthermore, we present three techniques for automatic annotation of image pairs with labels indicating their degree of similarity, and deploy them to re-annotate the MSLS, TB-Places, and 7Scenes datasets. We demonstrate that siamese CNNs trained using the GCL function and the improved annotations consistently outperform their binary counterparts. Our models trained on MSLS outperform the state-of-the-art methods, including NetVLAD, NetVLAD-SARE, AP-GeM and Patch-NetVLAD, and generalize well on the Pittsburgh30k, Tokyo 24/7, RobotCar Seasons v2 and Extended CMU Seasons datasets. Furthermore, training a siamese network using the GCL function does not require complex pair mining. We release the source code at https://github.com/marialeyvallina/generalized_contrastive_loss.

arxiv情報

著者 María Leyva-Vallina,Nicola Strisciuglio,Nicolai Petkov
発行日 2023-04-20 09:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク