Semantic Guided Level-Category Hybrid Prediction Network for Hierarchical Image Classification

要約

タイトル:ヒエラルキカル画像分類のためのセマンティックガイド付きレベル-カテゴリハイブリッド予測ネットワーク

要約:

– HC(階層分類)は、階層構造に組織化された複数のラベルを各オブジェクトに割り当てるものである。
– 既存の深層学習ベースのHC方法は、通常、根ノードからインスタンスを予測して、葉ノードに到達するまで行う。
– しかし、現実世界では、ノイズ、遮蔽、ぼやけ、または低解像度によって干渉された画像では、下位レベルでの分類に十分な情報を提供できない場合がある。
– この問題に対処するために、我々はセマンティックガイド付きレベル-カテゴリハイブリッド予測ネットワーク(SGLCHPN)を提案する。このネットワークは、レベルとカテゴリの予測を統合的に実行することができる。
– SGLCHPNは、2つのモジュールから構成されている。1つは、入力画像から特徴ベクトルを抽出するビジュアルトランスフォーマーであり、もう1つは、カテゴリの単語埋め込みをクエリとして使用して、カテゴリ固有の表現を学習するセマンティックガイド付きクロスアテンションモジュールである。
– 提案手法を評価するために、私たちは2つの新しいデータセットを構築した。これらのデータセットでは、画像が広範囲の品質であり、個々の品質に基づいて階層(深さ)にラベルが付けられている。
– 実験の結果、提案されたHC方法の効果が示された。

要約(オリジナル)

Hierarchical classification (HC) assigns each object with multiple labels organized into a hierarchical structure. The existing deep learning based HC methods usually predict an instance starting from the root node until a leaf node is reached. However, in the real world, images interfered by noise, occlusion, blur, or low resolution may not provide sufficient information for the classification at subordinate levels. To address this issue, we propose a novel semantic guided level-category hybrid prediction network (SGLCHPN) that can jointly perform the level and category prediction in an end-to-end manner. SGLCHPN comprises two modules: a visual transformer that extracts feature vectors from the input images, and a semantic guided cross-attention module that uses categories word embeddings as queries to guide learning category-specific representations. In order to evaluate the proposed method, we construct two new datasets in which images are at a broad range of quality and thus are labeled to different levels (depths) in the hierarchy according to their individual quality. Experimental results demonstrate the effectiveness of our proposed HC method.

arxiv情報

著者 Peng Wang,Jingzhou Chen,Yuntao Qian
発行日 2023-03-31 08:52:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク