要約
コンピュータ ビジョンにおける困難なタスクであるきめの細かい画像分類には、視覚的に類似したオブジェクト カテゴリ間で正確に区別する必要があります。
この論文では、1) 各トレーニング バッチ内の画像間の関係を利用してバッチ画像の視覚的特徴ベクトルを効果的に統合する Residual Relationship Attendee (RRA) と呼ばれる新しいモジュール、および 2) Relationship Position Encoding (RPE) と呼ばれる新しい技術を提案します。
、バッチ内の元の画像間の関係の位置をエンコードし、バッチ内の画像間の関係情報を効果的に保存します。
さらに、RRA を RPE と組み合わせて利用する新しいフレームワーク、つまりリレーションシップ バッチ インテグレーション (RBI) を設計します。これにより、特定のクラスを表す単一の画像を検査するときにとらえどころのない重要な視覚的特徴を識別できるようになります。
広範な実験を通じて、私たちが提案した方法は、さまざまなきめの細かい分類器の精度が大幅に向上し、CUB200-2011 と Stanford Dog で $(+2.78\%)$ と $(+3.83\%)$ の平均増加が見られることを実証しました。
Stanford Dog データセットでは $(95.79\%)$ という最先端の結果を達成しながら、
きめの細かい画像分類と同じレベルの改善は達成されていないにもかかわらず、私たちの方法は、Tiny-
イメージネット データセット。
さらに、私たちの方法はプラグイン改良モジュールとして機能し、さまざまなネットワークに簡単に統合できます。
要約(オリジナル)
Fine-grained image classification, which is a challenging task in computer vision, requires precise differentiation among visually similar object categories. In this paper, we propose 1) a novel module called Residual Relationship Attention (RRA) that leverages the relationships between images within each training batch to effectively integrate visual feature vectors of batch images and 2) a novel technique called Relationship Position Encoding (RPE), which encodes the positions of relationships between original images in a batch and effectively preserves the relationship information between images within the batch. Additionally, we design a novel framework, namely Relationship Batch Integration (RBI), which utilizes RRA in conjunction with RPE, allowing the discernment of vital visual features that may remain elusive when examining a singular image representative of a particular class. Through extensive experiments, our proposed method demonstrates significant improvements in the accuracy of different fine-grained classifiers, with an average increase of $(+2.78\%)$ and $(+3.83\%)$ on the CUB200-2011 and Stanford Dog datasets, respectively, while achieving a state-of-the-art results $(95.79\%)$ on the Stanford Dog dataset. Despite not achieving the same level of improvement as in fine-grained image classification, our method still demonstrates its prowess in leveraging general image classification by attaining a state-of-the-art result of $(93.71\%)$ on the Tiny-Imagenet dataset. Furthermore, our method serves as a plug-in refinement module and can be easily integrated into different networks.
arxiv情報
著者 | Duy M. Le,Bao Q. Bui,Anh Tran,Cong Tran,Cuong Pham |
発行日 | 2024-12-27 12:07:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google