MESA: Matching Everything by Segmenting Anything

要約

特徴マッチングは、コンピューター ビジョンの分野において重要なタスクであり、画像間の対応関係を見つけることが含まれます。
これまでの研究では、学習ベースの特徴比較を使用して顕著なパフォーマンスを達成しました。
ただし、画像間に一致する冗長性が広く存在するため、これらの方法では不必要でエラーが発生しやすい計算が発生し、精度に限界が生じます。
この問題に対処するために、我々は、効率的にマッチング冗長性を削減するために正確なエリア(または領域)マッチングを確立する新しいアプローチである MESA を提案します。
MESA はまず、画像セグメンテーション用の最先端の基礎モデルである SAM の高度な画像理解機能を利用して、暗黙的なセマンティクスを持つ画像領域を取得します。
次に、これらの領域の空間構造をモデル化し、そのスケール階層を構築するために、マルチリレーショナル グラフが提案されます。
グラフから導出されたグラフィカル モデルに基づいて、エリア マッチングがエネルギー最小化タスクとして再定式化され、効果的に解決されます。
広範な実験により、MESA が屋内および屋外の下流タスクにおける複数点照合器の精度を大幅に向上させることが実証されました。
屋内姿勢推定における DKM の +13.61%。

要約(オリジナル)

Feature matching is a crucial task in the field of computer vision, which involves finding correspondences between images. Previous studies achieve remarkable performance using learning-based feature comparison. However, the pervasive presence of matching redundancy between images gives rise to unnecessary and error-prone computations in these methods, imposing limitations on their accuracy. To address this issue, we propose MESA, a novel approach to establish precise area (or region) matches for efficient matching redundancy reduction. MESA first leverages the advanced image understanding capability of SAM, a state-of-the-art foundation model for image segmentation, to obtain image areas with implicit semantic. Then, a multi-relational graph is proposed to model the spatial structure of these areas and construct their scale hierarchy. Based on graphical models derived from the graph, the area matching is reformulated as an energy minimization task and effectively resolved. Extensive experiments demonstrate that MESA yields substantial precision improvement for multiple point matchers in indoor and outdoor downstream tasks, e.g. +13.61% for DKM in indoor pose estimation.

arxiv情報

著者 Yesheng Zhang,Xu Zhao
発行日 2024-04-08 14:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク