要約
本論文では、注目機構とグローバルコンテキストを用いた画像分類の一般的なフレームワークを提案し、様々なネットワークアーキテクチャに組み込むことでその性能を向上させることができる。グローバルコンテキストの能力を調べるために、4つの数学的モデルを比較し、カテゴリ分離条件付き生成モデルで符号化されたグローバルコンテキストが、「何がタスクと無関係かを知れば何が関連するかも分かる」ように、より多くのガイダンスを与えることができることを観察する。この観察に基づいて、我々は新しいカテゴリ分離グローバルコンテキスト(CDGC)を定義し、それを得るためのディープネットワークを考案した。CDGCを用いることで、ベースラインのネットワークはより正確に興味対象を識別できるようになり、その結果、性能が向上した。我々はこのフレームワークを様々なネットワークアーキテクチャに適用し、一般に公開されている4つのデータセットで最先端技術と比較した。広範な結果によって、我々のアプローチの有効性と優位性が検証された。論文は受理され次第、コードが公開される予定である。
要約(オリジナル)
In this paper, we propose a general framework for image classification using the attention mechanism and global context, which could incorporate with various network architectures to improve their performance. To investigate the capability of the global context, we compare four mathematical models and observe the global context encoded in the category disentangled conditional generative model could give more guidance as ‘know what is task irrelevant will also know what is relevant’. Based on this observation, we define a novel Category Disentangled Global Context (CDGC) and devise a deep network to obtain it. By attending CDGC, the baseline networks could identify the objects of interest more accurately, thus improving the performance. We apply the framework to many different network architectures and compare with the state-of-the-art on four publicly available datasets. Extensive results validate the effectiveness and superiority of our approach. Code will be made public upon paper acceptance.
arxiv情報
著者 | Keke Tang,Guodong Wei,Runnan Chen,Jie Zhu,Zhaoquan Gu,Wenping Wang |
発行日 | 2022-06-07 15:09:53+00:00 |
arxivサイト | arxiv_id(pdf) |