要約
畳み込みベースとトランスフォーマーベースのビジョン バックボーン ネットワークは、それぞれ画像をグリッド構造またはシーケンス構造に処理しますが、不規則なオブジェクトを捕捉するには柔軟性がありません。
Vision GNN (ViG) は複雑な画像に対してグラフレベルの機能を採用していますが、不正確な隣接ノードの選択、高価なノード情報集約計算、深い層での過度の平滑化など、いくつかの問題があります。
上記の問題に対処するために、視覚認識タスク用のプログレッシブ ビジョン グラフ (PVG) アーキテクチャを提案します。
以前の作品と比較すると、PVG には 3 つの主要なコンポーネントが含まれています。 1) 段階的に分離されたグラフ構築 (PSGC) は、層が深くなるにつれてグローバル グラフ ブランチのチャネルを徐々に増加させ、ローカル ブランチのチャネルを減少させることによって 2 次類似性を導入します。
2)Maxプーリングおよび数学的期待値(MaxE)を使用して豊富な隣接ノード情報を集約することによる隣接ノード情報集約および更新モジュール。
3)グラフエラー線形ユニット(Graph Error Linear Unit)(GraphLU)は、緩和された形式で低値情報を強調し、過度の平滑化を緩和するために画像詳細情報の圧縮を減らす。
主流のベンチマークに関する広範な実験により、最先端の手法に対する PVG の優位性が実証されています。たとえば、当社の PVG-S は、ImageNet-1K 上で 83.0% のトップ 1 精度を獲得しており、GNN ベースの ViG-S を +0.9 上回っています。
パラメータは 18.5% 減少しましたが、最大の PVG-B では 84.2% が得られ、ViG-B よりも +0.5 改善されました。
さらに、当社の PVG-S は、COCO データセット上の ViG-S よりもボックス AP が +1.3 増加し、マスク AP が +0.4 増加しました。
要約(オリジナル)
Convolution-based and Transformer-based vision backbone networks process images into the grid or sequence structures, respectively, which are inflexible for capturing irregular objects. Though Vision GNN (ViG) adopts graph-level features for complex images, it has some issues, such as inaccurate neighbor node selection, expensive node information aggregation calculation, and over-smoothing in the deep layers. To address the above problems, we propose a Progressive Vision Graph (PVG) architecture for vision recognition task. Compared with previous works, PVG contains three main components: 1) Progressively Separated Graph Construction (PSGC) to introduce second-order similarity by gradually increasing the channel of the global graph branch and decreasing the channel of local branch as the layer deepens; 2) Neighbor nodes information aggregation and update module by using Max pooling and mathematical Expectation (MaxE) to aggregate rich neighbor information; 3) Graph error Linear Unit (GraphLU) to enhance low-value information in a relaxed form to reduce the compression of image detail information for alleviating the over-smoothing. Extensive experiments on mainstream benchmarks demonstrate the superiority of PVG over state-of-the-art methods, e.g., our PVG-S obtains 83.0% Top-1 accuracy on ImageNet-1K that surpasses GNN-based ViG-S by +0.9 with the parameters reduced by 18.5%, while the largest PVG-B obtains 84.2% that has +0.5 improvement than ViG-B. Furthermore, our PVG-S obtains +1.3 box AP and +0.4 mask AP gains than ViG-S on COCO dataset.
arxiv情報
著者 | Jiafu Wu,Jian Li,Jiangning Zhang,Boshen Zhang,Mingmin Chi,Yabiao Wang,Chengjie Wang |
発行日 | 2023-08-01 14:35:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google