Part-guided Relational Transformers for Fine-grained Visual Recognition

要約

きめの細かい視覚認識は、視覚的に類似した外観を持つオブジェクトをサブカテゴリに分類することであり、ディープ CNN の開発で大きな進歩を遂げました。
ただし、異なるサブカテゴリ間の微妙な違いを処理することは依然として課題です。
この論文では、この問題を 2 つの側面から 1 つの統一されたフレームワークで解決することを提案します。つまり、機能レベルの相互関係を構築し、部分レベルの識別機能をキャプチャします。
このフレームワーク、すなわち PART ガイド付きリレーショナル トランスフォーマー (PART) は、自動パーツ検出モジュールを使用して差別的なパーツの特徴を学習し、自然言語の分野からトランスフォーマー モデルを適応させることにより、特徴変換モジュールを使用して固有の相関関係を調査するために提案されています。
処理。
部分発見モジュールは、勾配降下法との対応性が高い識別領域を効率的に発見します。
次に、2 番目の特徴変換モジュールは、グローバル埋め込みと複数部分埋め込み内で相関関係を構築し、セマンティック ピクセル間の空間的相互作用を強化します。
さらに、提案されたアプローチは、推論時に追加の部分分岐に依存せず、広く使用されている 3 つのきめの細かいオブジェクト認識ベンチマークで最先端のパフォーマンスに達します。
実験結果と説明可能な視覚化は、提案されたアプローチの有効性を示しています。
コードは https://github.com/iCVTEAM/PART にあります。

要約(オリジナル)

Fine-grained visual recognition is to classify objects with visually similar appearances into subcategories, which has made great progress with the development of deep CNNs. However, handling subtle differences between different subcategories still remains a challenge. In this paper, we propose to solve this issue in one unified framework from two aspects, i.e., constructing feature-level interrelationships, and capturing part-level discriminative features. This framework, namely PArt-guided Relational Transformers (PART), is proposed to learn the discriminative part features with an automatic part discovery module, and to explore the intrinsic correlations with a feature transformation module by adapting the Transformer models from the field of natural language processing. The part discovery module efficiently discovers the discriminative regions which are highly-corresponded to the gradient descent procedure. Then the second feature transformation module builds correlations within the global embedding and multiple part embedding, enhancing spatial interactions among semantic pixels. Moreover, our proposed approach does not rely on additional part branches in the inference time and reaches state-of-the-art performance on 3 widely-used fine-grained object recognition benchmarks. Experimental results and explainable visualizations demonstrate the effectiveness of our proposed approach. The code can be found at https://github.com/iCVTEAM/PART.

arxiv情報

著者 Yifan Zhao,Jia Li,Xiaowu Chen,Yonghong Tian
発行日 2022-12-28 03:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク