要約
クロスビュー自己位置特定は、データベース画像がまばらな視点から提供される視覚的な場所認識の挑戦的なシナリオです。
最近、NeRF (Neural Radiance Fields) テクノロジーを使用して、目に見えない視点からデータベース画像を合成するアプローチが登場し、優れたパフォーマンスを実現しました。
ただし、これらの技術によって提供される合成画像は、元の画像よりも品質が低いことが多く、さらにデータベースの保存コストが大幅に増加します。
この研究では、生の画像から計算されたビュー不変の外観特徴と、合成画像から計算されたビュー依存の空間意味論的特徴の利点を組み合わせた、新しいハイブリッド シーン モデルを探索します。
これら 2 種類の特徴はシーン グラフに融合され、グラフ ニューラル ネットワークによって圧縮的に学習および認識されます。
提案された方法の有効性は、フォトリアリスティックな生息地シミュレーターを使用して生成された多くの未見のビューを含む、新しいクロスビュー自己位置推定データセットを使用して検証されました。
要約(オリジナル)
Cross-view self-localization is a challenging scenario of visual place recognition in which database images are provided from sparse viewpoints. Recently, an approach for synthesizing database images from unseen viewpoints using NeRF (Neural Radiance Fields) technology has emerged with impressive performance. However, synthesized images provided by these techniques are often of lower quality than the original images, and furthermore they significantly increase the storage cost of the database. In this study, we explore a new hybrid scene model that combines the advantages of view-invariant appearance features computed from raw images and view-dependent spatial-semantic features computed from synthesized images. These two types of features are then fused into scene graphs, and compressively learned and recognized by a graph neural network. The effectiveness of the proposed method was verified using a novel cross-view self-localization dataset with many unseen views generated using a photorealistic Habitat simulator.
arxiv情報
著者 | Ryogo Yamamoto,Kanji Tanaka |
発行日 | 2023-10-24 04:16:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google