Graph Reasoning Transformer for Image Parsing

要約

長期的な依存関係を把握することは、さまざまなコンピューター ビジョン タスクで効果的であることが経験的に証明されています。
このトピックに関する進歩的な進歩は、マルチヘッド アテンション メカニズムの助けを借りてトランスフォーマー フレームワークを採用することで実現されました。
ただし、注意ベースの画像パッチの相互作用は、クラス内パッチの冗長な相互作用とクラス間パッチの方向性のない相互作用の問題に潜在的に悩まされています。
この論文では、画像パッチが関係推論パターンに従って相互作用できるようにするための、画像解析用の新しいグラフ推論変換器 (GReaT) を提案します。
具体的には、線形に埋め込まれた画像パッチが最初にグラフ空間に投影されます。ここで、各ノードは画像パッチのクラスターの暗黙的な視覚的中心を表し、各エッジは 2 つの隣接するノード間の関係の重みを反映します。
その後、それに応じて、このグラフに対してグローバルな関係推論が実行されます。
最後に、関係情報を含むすべてのノードが、後続のプロセスのために元の空間にマップされます。
従来のトランスフォーマーと比較して、GREaT は対話効率が高く、より意図的な対話パターンを持っています。
挑戦的な Cityscapes と ADE20K データセットで実験が行われます。
結果は、GREaT が最新の変換器ベースラインでわずかな計算オーバーヘッドで一貫したパフォーマンスの向上を達成することを示しています。

要約(オリジナル)

Capturing the long-range dependencies has empirically proven to be effective on a wide range of computer vision tasks. The progressive advances on this topic have been made through the employment of the transformer framework with the help of the multi-head attention mechanism. However, the attention-based image patch interaction potentially suffers from problems of redundant interactions of intra-class patches and unoriented interactions of inter-class patches. In this paper, we propose a novel Graph Reasoning Transformer (GReaT) for image parsing to enable image patches to interact following a relation reasoning pattern. Specifically, the linearly embedded image patches are first projected into the graph space, where each node represents the implicit visual center for a cluster of image patches and each edge reflects the relation weight between two adjacent nodes. After that, global relation reasoning is performed on this graph accordingly. Finally, all nodes including the relation information are mapped back into the original space for subsequent processes. Compared to the conventional transformer, GReaT has higher interaction efficiency and a more purposeful interaction pattern. Experiments are carried out on the challenging Cityscapes and ADE20K datasets. Results show that GReaT achieves consistent performance gains with slight computational overheads on the state-of-the-art transformer baselines.

arxiv情報

著者 Dong Zhang,Jinhui Tang,Kwang-Ting Cheng
発行日 2022-09-20 08:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク