要約
最近の学習ベースのアプローチは、シングルショット カメラの位置特定の分野で目覚ましい成果を上げています。
ただし、複数のモダリティ (画像と深度など) を融合する最善の方法や、劣化した入力や欠落した入力に対処する方法については、あまりよく研究されていません。
特に、深部融合に対するこれまでのアプローチは、単一のモダリティを採用したモデルよりも大幅に優れたパフォーマンスを発揮しないことに注意します。
これは、各モダリティの異なる強みを考慮していない、加算または連結による特徴空間融合への単純なアプローチのためであると推測しています。
これに対処するために、我々は、変分的な専門知識製品 (PoE) とそれに続く注意ベースの融合を通じて、さまざまなセンサー入力を共通の潜在空間に融合する、VMLoc と呼ばれるエンドツーエンドのフレームワークを提案します。
バニラ変分オートエンコーダの目的関数を直接適応させる以前のマルチモーダル変分作業とは異なり、重要度の重み付けに基づく不偏目的関数を通じてカメラの位置を正確に推定できる方法を示します。
私たちのモデルは RGB-D データセットで広範囲に評価されており、その結果はモデルの有効性を証明しています。
ソース コードは https://github.com/kaichen-z/VMLoc で入手できます。
要約(オリジナル)
Recent learning-based approaches have achieved impressive results in the field of single-shot camera localization. However, how best to fuse multiple modalities (e.g., image and depth) and to deal with degraded or missing input are less well studied. In particular, we note that previous approaches towards deep fusion do not perform significantly better than models employing a single modality. We conjecture that this is because of the naive approaches to feature space fusion through summation or concatenation which do not take into account the different strengths of each modality. To address this, we propose an end-to-end framework, termed VMLoc, to fuse different sensor inputs into a common latent space through a variational Product-of-Experts (PoE) followed by attention-based fusion. Unlike previous multimodal variational works directly adapting the objective function of vanilla variational auto-encoder, we show how camera localization can be accurately estimated through an unbiased objective function based on importance weighting. Our model is extensively evaluated on RGB-D datasets and the results prove the efficacy of our model. The source code is available at https://github.com/kaichen-z/VMLoc.
arxiv情報
著者 | Kaichen Zhou,Changhao Chen,Bing Wang,Muhamad Risqi U. Saputra,Niki Trigoni,Andrew Markham |
発行日 | 2023-06-22 11:55:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google