Revisit Anything: Visual Place Recognition via Image Segment Retrieval

要約

再訪問した場所を正確に認識することは、実体化したエージェントが位置を特定してナビゲートするために非常に重要です。
そのためには、カメラの視点やシーンの外観が大きく異なるにもかかわらず、視覚的な表現が明確である必要があります。
既存の視覚的場所認識パイプラインは、画像の「全体」をエンコードし、一致するものを検索します。
これは、異なるカメラの視点から撮影された同じ場所の 2 つの画像を照合する際に根本的な課題を引き起こします。「重なる部分の類似性は、重ならない部分の非類似性によって支配される可能性がある」ということです。
画像全体ではなく「画像セグメント」をエンコードして検索することで、この問題に対処します。
私たちは、オープンセット画像セグメンテーションを使用して、画像を「意味のある」エンティティ (つまり、物やもの) に分解することを提案します。
これにより、スーパーセグメントと呼ばれる、セグメントとその隣接するセグメントを接続する複数の重複するサブグラフの集合として新しい画像表現を作成することができます。
さらに、これらのスーパーセグメントをコンパクトなベクトル表現に効率的にエンコードするために、特徴集約の新しい因数分解表現を提案します。
これらの部分表現を取得すると、典型的な画像全体に基づく検索よりも大幅に高い認識再現率が得られることを示します。
SegVLAD と呼ばれる当社のセグメントベースのアプローチは、汎用画像エンコーダーとタスク特化型画像エンコーダーの両方に適用できると同時に、ベンチマーク データセットの多様な選択に対して新しい最先端のその場認識を確立します。
最後に、オブジェクト インスタンス検索タスクでメソッドを評価することにより、「何でも再訪する」というメソッドの可能性を実証します。このタスクは、視覚的場所認識とオブジェクトと目標のナビゲーションという 2 つの異なる研究領域を、共通の目的を通じて橋渡しします。
場所に特有の目標オブジェクトを認識する。
ソースコード: https://github.com/AnyLoc/Revisit-Anything。

要約(オリジナル)

Accurately recognizing a revisited place is crucial for embodied agents to localize and navigate. This requires visual representations to be distinct, despite strong variations in camera viewpoint and scene appearance. Existing visual place recognition pipelines encode the ‘whole’ image and search for matches. This poses a fundamental challenge in matching two images of the same place captured from different camera viewpoints: ‘the similarity of what overlaps can be dominated by the dissimilarity of what does not overlap’. We address this by encoding and searching for ‘image segments’ instead of the whole images. We propose to use open-set image segmentation to decompose an image into `meaningful’ entities (i.e., things and stuff). This enables us to create a novel image representation as a collection of multiple overlapping subgraphs connecting a segment with its neighboring segments, dubbed SuperSegment. Furthermore, to efficiently encode these SuperSegments into compact vector representations, we propose a novel factorized representation of feature aggregation. We show that retrieving these partial representations leads to significantly higher recognition recall than the typical whole image based retrieval. Our segments-based approach, dubbed SegVLAD, sets a new state-of-the-art in place recognition on a diverse selection of benchmark datasets, while being applicable to both generic and task-specialized image encoders. Finally, we demonstrate the potential of our method to “revisit anything” by evaluating our method on an object instance retrieval task, which bridges the two disparate areas of research: visual place recognition and object-goal navigation, through their common aim of recognizing goal objects specific to a place. Source code: https://github.com/AnyLoc/Revisit-Anything.

arxiv情報

著者 Kartik Garg,Sai Shubodh Puligilla,Shishir Kolathaya,Madhava Krishna,Sourav Garg
発行日 2024-09-26 16:49:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG, cs.RO パーマリンク