要約
静的環境の想定は、SLAM などの多くの幾何学的なコンピューター ビジョン タスクでは一般的ですが、非常に動的なシーンでは適用性が制限されます。
これらのタスクは、環境の静的部分内の入力画像間の点の対応関係を特定することに依存しているため、移動するオブジェクト上のキーポイントを除外しながら、困難な条件下でロバストなマッチングを実行するように設計されたグラフ ニューラル ネットワーク ベースの疎な特徴マッチング ネットワークを提案します。
我々は、グラフエッジ上のアテンション集約の同様のスキームを採用して、最先端の特徴マッチングネットワークとしてキーポイント表現を強化しますが、エピポーラ情報と時間情報でグラフを強化し、グラフエッジの数を大幅に削減します。
さらに、未処理の視覚慣性データのみから動的環境における画像ペアの疑似ラベルを抽出する自己教師ありトレーニング スキームを導入します。
一連の実験では、従来のマッチングメトリクスに関しては同様の結果を達成しながら、最先端の特徴マッチングネットワークと比較して、移動物体上のキーポイントを除外するため、当社のネットワークのパフォーマンスが優れていることが示されました。
SLAM システムに統合すると、当社のネットワークは、特に非常に動的なシーンでのパフォーマンスを大幅に向上させます。
要約(オリジナル)
The assumption of a static environment is common in many geometric computer vision tasks like SLAM but limits their applicability in highly dynamic scenes. Since these tasks rely on identifying point correspondences between input images within the static part of the environment, we propose a graph neural network-based sparse feature matching network designed to perform robust matching under challenging conditions while excluding keypoints on moving objects. We employ a similar scheme of attentional aggregation over graph edges to enhance keypoint representations as state-of-the-art feature-matching networks but augment the graph with epipolar and temporal information and vastly reduce the number of graph edges. Furthermore, we introduce a self-supervised training scheme to extract pseudo labels for image pairs in dynamic environments from exclusively unprocessed visual-inertial data. A series of experiments show the superior performance of our network as it excludes keypoints on moving objects compared to state-of-the-art feature matching networks while still achieving similar results regarding conventional matching metrics. When integrated into a SLAM system, our network significantly improves performance, especially in highly dynamic scenes.
arxiv情報
著者 | Theresa Huber,Simon Schaefer,Stefan Leutenegger |
発行日 | 2024-07-01 09:04:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google