Pixel-wise Graph Attention Networks for Person Re-identification

要約

グラフ畳み込みネットワーク (GCN) は、グラフの構造情報を使用してノードの特徴を更新するため、不規則なデータを処理するために広く使用されています。
反復 GCN の助けを借りて、高次の情報を取得して、ノードの表現をさらに強化できます。
しかし、GCN を構造化データ (写真など) に適用する方法は深く研究されていません。
この論文では、画像特徴抽出におけるグラフ アテンション ネットワーク (GAT) の応用を検討します。
まず、画像を行列変換してグラフに変換する新しいグラフ生成アルゴリズムを提案します。
これは、K 最近傍 (KNN) に基づくアルゴリズムよりも 1 桁高速です。
次に、生成されたグラフに対して GAT が使用され、ノードの特徴が更新されます。
したがって、より堅牢な表現が得られます。
これら 2 つのステップは、ピクセルごとのグラフ アテンション モジュール (PGA) と呼ばれるモジュールに結合されます。
グラフ生成アルゴリズムで得られたグラフは処理後も画像に変換できるため、PGA は CNN とうまく組み合わせることができます。
これら 2 つのモジュールに基づいて、ResNet を参照し、ピクセル単位のグラフ アテンション ネットワーク (PGANet) を設計しました。
PGANet は、データセット Market1501、DukeMTMC-reID、および Occluded-DukeMTMC の個人再識別タスクに適用されます (mAP スコアでは、最先端のものをそれぞれ 0.8\%、1.1\%、11\% 上回っています)
)。
実験結果は、最先端の性能を達成することを示しています。
\href{https://github.com/wenyu1009/PGANet}{コードはここから入手可能}。

要約(オリジナル)

Graph convolutional networks (GCN) is widely used to handle irregular data since it updates node features by using the structure information of graph. With the help of iterated GCN, high-order information can be obtained to further enhance the representation of nodes. However, how to apply GCN to structured data (such as pictures) has not been deeply studied. In this paper, we explore the application of graph attention networks (GAT) in image feature extraction. First of all, we propose a novel graph generation algorithm to convert images into graphs through matrix transformation. It is one magnitude faster than the algorithm based on K Nearest Neighbors (KNN). Then, GAT is used on the generated graph to update the node features. Thus, a more robust representation is obtained. These two steps are combined into a module called pixel-wise graph attention module (PGA). Since the graph obtained by our graph generation algorithm can still be transformed into a picture after processing, PGA can be well combined with CNN. Based on these two modules, we consulted the ResNet and design a pixel-wise graph attention network (PGANet). The PGANet is applied to the task of person re-identification in the datasets Market1501, DukeMTMC-reID and Occluded-DukeMTMC (outperforms state-of-the-art by 0.8\%, 1.1\% and 11\% respectively, in mAP scores). Experiment results show that it achieves the state-of-the-art performance. \href{https://github.com/wenyu1009/PGANet}{The code is available here}.

arxiv情報

著者 Wenyu Zhang,Qing Ding,Jian Hu,Yi Ma,Mingzhe Lu
発行日 2023-07-18 12:12:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク