要約
DROID などの深層視覚同時位置特定およびマッピング (SLAM) 技術は、密な流れ場での深層視覚オドメトリを活用することで大幅な進歩を遂げました。
一般に、それらはグローバルな視覚的類似性マッチングに大きく依存します。
ただし、不確実な領域におけるあいまいな類似性の干渉により、対応関係に過剰なノイズが発生し、最終的には幾何モデリングにおける SLAM を誤解させる可能性があります。
この問題に対処するために、学習可能なガウス不確実性 (LGU) マッチングを提案します。
正確な対応構築を主に行っております。
私たちのスキームでは、学習可能な 2D ガウス不確実性モデルが、一致するフレームのペアを関連付けるように設計されています。
各対応マップの入力依存のガウス分布を生成できます。
さらに、マルチスケールの変形可能な相関サンプリング戦略が考案され、先験的なルックアップ範囲によって各方向のサンプリングを適応的に微調整し、信頼性の高い相関構築を可能にします。
さらに、限られたパラメータで高度な時空間モデリングを実現するための時間的反復強化を改善するために、KAN バイアス GRU コンポーネントが採用されています。
私たちの手法の有効性と優位性を検証するために、現実世界のデータセットと合成データセットに対する広範な実験が行われます。
要約(オリジナル)
Deep visual Simultaneous Localization and Mapping (SLAM) techniques, e.g., DROID, have made significant advancements by leveraging deep visual odometry on dense flow fields. In general, they heavily rely on global visual similarity matching. However, the ambiguous similarity interference in uncertain regions could often lead to excessive noise in correspondences, ultimately misleading SLAM in geometric modeling. To address this issue, we propose a Learnable Gaussian Uncertainty (LGU) matching. It mainly focuses on precise correspondence construction. In our scheme, a learnable 2D Gaussian uncertainty model is designed to associate matching-frame pairs. It could generate input-dependent Gaussian distributions for each correspondence map. Additionally, a multi-scale deformable correlation sampling strategy is devised to adaptively fine-tune the sampling of each direction by a priori look-up ranges, enabling reliable correlation construction. Furthermore, a KAN-bias GRU component is adopted to improve a temporal iterative enhancement for accomplishing sophisticated spatio-temporal modeling with limited parameters. The extensive experiments on real-world and synthetic datasets are conducted to validate the effectiveness and superiority of our method.
arxiv情報
著者 | Yucheng Huang,Luping Ji,Hudong Liu,Mao Ye |
発行日 | 2024-10-30 17:20:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google