要約
コンピュータビジョンでは、画像をパッチの列として扱い、その列から頑健な大域的特徴を学習する変換器がますます普及している。しかし、車両再識別には頑健な大域的特徴と識別可能な局所的特徴の両方が必要であるため、純粋な変換器は車両再識別に完全に適しているとは言えない。そこで、本論文ではグラフ対話型変換器(GiT)を提案する。マクロビューでは、GiTブロックのリストを積み重ねて車両再識別モデルを構築し、グラフはパッチ内の識別可能な局所特徴を抽出し、変換器はパッチ間の頑健な大域特徴を抽出する。ミクロな視点では、グラフとトランスフォーマーはインタラクティブな状態にあり、局所的特徴と大域的特徴の効果的な協調をもたらす。具体的には、現在のグラフは、前のレベルのグラフと変換器の後に埋め込まれ、現在の変換器は、現在のグラフと前のレベルの変換器の後に埋め込まれる。グラフと変換の相互作用に加えて、グラフは新たに設計された局所補正グラフであり、ノードの関係を探索することでパッチ内の識別可能な局所特徴を学習する。3つの大規模車両再識別データセットに対する広範な実験により、我々のGiT法が最先端の車両再識別アプローチより優れていることを実証する。
要約(オリジナル)
Transformers are more and more popular in computer vision, which treat an image as a sequence of patches and learn robust global features from the sequence. However, pure transformers are not entirely suitable for vehicle re-identification because vehicle re-identification requires both robust global features and discriminative local features. For that, a graph interactive transformer (GiT) is proposed in this paper. In the macro view, a list of GiT blocks are stacked to build a vehicle re-identification model, in where graphs are to extract discriminative local features within patches and transformers are to extract robust global features among patches. In the micro view, graphs and transformers are in an interactive status, bringing effective cooperation between local and global features. Specifically, one current graph is embedded after the former level’s graph and transformer, while the current transform is embedded after the current graph and the former level’s transformer. In addition to the interaction between graphs and transforms, the graph is a newly-designed local correction graph, which learns discriminative local features within a patch by exploring nodes’ relationships. Extensive experiments on three large-scale vehicle re-identification datasets demonstrate that our GiT method is superior to state-of-the-art vehicle re-identification approaches.
arxiv情報
著者 | Fei Shen,Yi Xie,Jianqing Zhu,Xiaobin Zhu,Huanqiang Zeng |
発行日 | 2023-01-10 14:41:46+00:00 |
arxivサイト | arxiv_id(pdf) |