Enhancing Classification with Hierarchical Scalable Query on Fusion Transformer

要約

実世界のビジョン ベースのアプリケーションでは、電子商取引、モバイル アプリケーション、倉庫管理など、さまざまな関心領域の詳細な分類が必要です。エラーの重大度を減らし、分類精度を向上させることが最も重要です。
この論文では、学習可能な独立したクエリ埋め込みを介した階層的アプローチにより、きめの細かい分類を強化する方法を提案します。
これは、粗いクラス予測を使用して細かいクラスの精度を段階的に順次改善する分類ネットワークによって実現されます。
階層の考え方を利用して、すべてのレベルでスケーラブルなクエリの埋め込みを学習するため、これは、多数のクラスがある極端な分類でも適切なアプローチになります。
クエリは、トレーニング サンプルから計算された加重固有画像で初期化され、オブジェクトの分散を最適に表現およびキャプチャします。
トランスフォーマー ブロックを導入して、さまざまな縮尺でフィーチャ マップの空間表現を強化するために、クエリの注意が発生する中間層を融合します。
このマルチスケール フュージョンは、小さなサイズのオブジェクトの精度を向上させるのに役立ちます。
学習可能なクエリを一意に表現するための 2 つのアプローチを提案します。
まず、各階層レベルで、クラスターベースの損失を活用します。これにより、クラス間クエリ埋め込み間の最大分離が保証され、高次元空間でのより良い (クエリ) 表現の学習に役立ちます。
次に、粗いレベルのクエリと、学習したスケール ファクターによって重み付けされたより細かいレベルのクエリを融合します。
さらに、事前 (CAMP) ブロックを使用したマルチレベル クエリの Cross Attention と呼ばれる新しいブロックを導入します。これは、すべての階層分類器で共通の問題である、粗いレベルからより細かいレベルへのエラーの伝播を減らすのに役立ちます。
私たちの方法は、きめの細かい分類で〜11%の改善により、既存の方法よりも優れています。

要約(オリジナル)

Real-world vision based applications require fine-grained classification for various area of interest like e-commerce, mobile applications, warehouse management, etc. where reducing the severity of mistakes and improving the classification accuracy is of utmost importance. This paper proposes a method to boost fine-grained classification through a hierarchical approach via learnable independent query embeddings. This is achieved through a classification network that uses coarse class predictions to improve the fine class accuracy in a stage-wise sequential manner. We exploit the idea of hierarchy to learn query embeddings that are scalable across all levels, thus making this a relevant approach even for extreme classification where we have a large number of classes. The query is initialized with a weighted Eigen image calculated from training samples to best represent and capture the variance of the object. We introduce transformer blocks to fuse intermediate layers at which query attention happens to enhance the spatial representation of feature maps at different scales. This multi-scale fusion helps improve the accuracy of small-size objects. We propose a two-fold approach for the unique representation of learnable queries. First, at each hierarchical level, we leverage cluster based loss that ensures maximum separation between inter-class query embeddings and helps learn a better (query) representation in higher dimensional spaces. Second, we fuse coarse level queries with finer level queries weighted by a learned scale factor. We additionally introduce a novel block called Cross Attention on Multi-level queries with Prior (CAMP) Block that helps reduce error propagation from coarse level to finer level, which is a common problem in all hierarchical classifiers. Our method is able to outperform the existing methods with an improvement of ~11% at the fine-grained classification.

arxiv情報

著者 Sudeep Kumar Sahoo,Sathish Chalasani,Abhishek Joshi,Kiran Nanjunda Iyer
発行日 2023-02-28 11:00:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.10 パーマリンク