GMTR: Graph Matching Transformers

要約

ビジョン トランスフォーマー (ViT) は、最近、オブジェクトの検出やセグメンテーションを超えた視覚的なマッチングに使用されています。
ただし、ViT の元のグリッド分割戦略ではキーポイントの空間情報が無視され、局所的な情報に対する感度が制限されます。
したがって、空間情報抽出を改善するために、クロスアテンション モジュールとキーポイント ベースのセンター クロップ戦略を採用する \textbf{QueryTrans} (クエリ トランスフォーマー) を提案します。
さらにグラフ アテンション モジュールを統合し、トランスフォーマー ベースのグラフ マッチング アプローチ \textbf{GMTR} (Graph Matching TRansformers) を考案します。これにより、GM の組み合わせの性質がグラフ トランスフォーマー ニューラル GM ソルバーによって対処されます。
標準の GM ベンチマークでは、GMTR は SOTA フレームワークに対して競合するパフォーマンスを示します。
具体的には、Pascal VOC では、GMTR は $\mathbf{83.6\%}$ の精度を達成し、SOTA フレームワークよりも $\mathbf{0.9\%}$ 高くなります。
Spair-71k では、GMTR は大きな可能性を示し、以前の作品のほとんどを上回っています。
一方、Pascal VOC では、QueryTrans により NGMv2 の精度が $80.1\%$ から $\mathbf{83.3\%}$ に、BBGM の精度が $79.0\%$ から $\mathbf{84.5\%}$ に向上しました。
Spair-71k では、QueryTrans により NGMv2 が $80.6\%$ から $\mathbf{82.5\%}$ に、BBGM が $82.1\%$ から $\mathbf{83.9\%}$ に改善されます。
ソースコードは公開される予定です。

要約(オリジナル)

Vision transformers (ViTs) have recently been used for visual matching beyond object detection and segmentation. However, the original grid dividing strategy of ViTs neglects the spatial information of the keypoints, limiting the sensitivity to local information. Therefore, we propose \textbf{QueryTrans} (Query Transformer), which adopts a cross-attention module and keypoints-based center crop strategy for better spatial information extraction. We further integrate the graph attention module and devise a transformer-based graph matching approach \textbf{GMTR} (Graph Matching TRansformers) whereby the combinatorial nature of GM is addressed by a graph transformer neural GM solver. On standard GM benchmarks, GMTR shows competitive performance against the SOTA frameworks. Specifically, on Pascal VOC, GMTR achieves $\mathbf{83.6\%}$ accuracy, $\mathbf{0.9\%}$ higher than the SOTA framework. On Spair-71k, GMTR shows great potential and outperforms most of the previous works. Meanwhile, on Pascal VOC, QueryTrans improves the accuracy of NGMv2 from $80.1\%$ to $\mathbf{83.3\%}$, and BBGM from $79.0\%$ to $\mathbf{84.5\%}$. On Spair-71k, QueryTrans improves NGMv2 from $80.6\%$ to $\mathbf{82.5\%}$, and BBGM from $82.1\%$ to $\mathbf{83.9\%}$. Source code will be made publicly available.

arxiv情報

著者 Jinpei Guo,Shaofeng Zhang,Runzhong Wang,Chang Liu,Junchi Yan
発行日 2023-11-14 13:12:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク