GiT: Graph Interactive Transformer for Vehicle Re-identification


トランスフォーマーは、コンピューター ビジョンでますます人気が高まっています。トランスフォーマーは、画像を一連のパッチとして扱い、シーケンスから堅牢なグローバル機能を学習します。
マクロ ビューでは、GiT ブロックのリストが積み重ねられて車両再識別モデルが構築されます。ここで、グラフはパッチ内の識別可能なローカル機能を抽出し、トランスフォーマーはパッチ間のロバストなグローバル機能を抽出します。
具体的には、1 つの電流グラフが前段のグラフと変換器の後に埋め込まれ、現在の変換が現在のグラフと前段の変換器の後に埋め込まれます。
3 つの大規模な車両再識別データセットに関する広範な実験により、当社の GiT メソッドが最先端の車両再識別アプローチよりも優れていることが実証されました。


Transformers are more and more popular in computer vision, which treat an image as a sequence of patches and learn robust global features from the sequence. However, pure transformers are not entirely suitable for vehicle re-identification because vehicle re-identification requires both robust global features and discriminative local features. For that, a graph interactive transformer (GiT) is proposed in this paper. In the macro view, a list of GiT blocks are stacked to build a vehicle re-identification model, in where graphs are to extract discriminative local features within patches and transformers are to extract robust global features among patches. In the micro view, graphs and transformers are in an interactive status, bringing effective cooperation between local and global features. Specifically, one current graph is embedded after the former level’s graph and transformer, while the current transform is embedded after the current graph and the former level’s transformer. In addition to the interaction between graphs and transforms, the graph is a newly-designed local correction graph, which learns discriminative local features within a patch by exploring nodes’ relationships. Extensive experiments on three large-scale vehicle re-identification datasets demonstrate that our GiT method is superior to state-of-the-art vehicle re-identification approaches.


著者 Fei Shen,Yi Xie,Jianqing Zhu,Xiaobin Zhu,Huanqiang Zeng
発行日 2023-01-11 03:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク