要約
細粒度画像分類(FGIC)は、サブカテゴリ間の視覚的差異は小さいが、クラス内の差異は大きいため、コンピュータビジョンにおける困難な課題である。ディープラーニング手法は、FGICの解決において目覚ましい成功を収めている。本稿では、大域的なテクスチャと局所的なパッチベースの情報を組み合わせることで、FGICに対処する融合アプローチを提案する。最初のパイプラインは、様々な固定サイズの非重複パッチから深層特徴を抽出し、長短期記憶(LSTM)を用いた逐次モデリングによって特徴を符号化する。もう1つの経路は、局所バイナリパターン(LBP)を用いて複数のスケールで画像レベルのテクスチャを計算する。両者の長所を統合し、画像分類のための効率的な特徴ベクトルを表現する。本手法は、4つの標準的なバックボーンCNNを用いて、人間の顔、皮膚病変、料理、海洋生物などを表す8つのデータセットでテストされた。本手法は、既存の手法に比べ、顕著なマージンをもって、より高い分類精度を達成した。
要約(オリジナル)
Fine-grained image classification (FGIC) is a challenging task in computer vision for due to small visual differences among inter-subcategories, but, large intra-class variations. Deep learning methods have achieved remarkable success in solving FGIC. In this paper, we propose a fusion approach to address FGIC by combining global texture with local patch-based information. The first pipeline extracts deep features from various fixed-size non-overlapping patches and encodes features by sequential modelling using the long short-term memory (LSTM). Another path computes image-level textures at multiple scales using the local binary patterns (LBP). The advantages of both streams are integrated to represent an efficient feature vector for image classification. The method is tested on eight datasets representing the human faces, skin lesions, food dishes, marine lives, etc. using four standard backbone CNNs. Our method has attained better classification accuracy over existing methods with notable margins.
arxiv情報
著者 | Asish Bera,Debotosh Bhattacharjee,Mita Nasipuri |
発行日 | 2023-08-03 15:21:08+00:00 |
arxivサイト | arxiv_id(pdf) |