TransHP: Image Classification with Hierarchical Prompting

要約

タイトル:TransHP:階層プロンプティングによる画像分類

要約:本論文では、階層的画像分類(HIC)タスクのための階層的プロンプティングメカニズムについて探求しています。従来のHIC方法とは異なり、当社の階層的プロンプティングは、祖先クラス情報を暗示として明示的に注入する最初のものであり、子孫クラスの判別に役立ちます。これは、人間の視覚認識をよく模倣していると思われます。つまり、人間は、祖先クラスをプロンプトとして使用して、子孫クラスの微妙な違いに注目することができます。このプロンプティングメカニズムを、階層的プロンプティング(TransHP)を備えたトランスフォーマにモデル化しました。TransHPは、3つのステップからなります。1)荒い(祖先)クラスを表すプロンプトトークンセットを学習する、2)途中ブロックで入力画像の荒いクラスをオンザフライで予測する、3)予測された荒いクラスのプロンプトトークンを中間特徴に注入する。TransHPのパラメータはすべての入力画像に対して同じままであり、注入された荒いクラスのプロンプトは、後続の特徴抽出を変更し、子孫クラスの比較的微妙な違いに動的に注目するように促します。豊富な実験結果により、TransHPは、精度(例えば、ViT-B / 16を+2.83%ImageNet分類精度向上)、トレーニングデータの効率性(例えば、10%のImageNetトレーニングデータの場合、+12.69%改善)、およびモデルの説明可能性を向上させます。さらに、TransHPは、従来のHIC方法に対して有利な結果を示し、階層的情報をうまく活用していることを示します。

要約(オリジナル)

This paper explores a hierarchical prompting mechanism for the hierarchical image classification (HIC) task. Different from prior HIC methods, our hierarchical prompting is the first to explicitly inject ancestor-class information as a tokenized hint that benefits the descendant-class discrimination. We think it well imitates human visual recognition, i.e., humans may use the ancestor class as a prompt to draw focus on the subtle differences among descendant classes. We model this prompting mechanism into a Transformer with Hierarchical Prompting (TransHP). TransHP consists of three steps: 1) learning a set of prompt tokens to represent the coarse (ancestor) classes, 2) on-the-fly predicting the coarse class of the input image at an intermediate block, and 3) injecting the prompt token of the predicted coarse class into the intermediate feature. Though the parameters of TransHP maintain the same for all input images, the injected coarse-class prompt conditions (modifies) the subsequent feature extraction and encourages a dynamic focus on relatively subtle differences among the descendant classes. Extensive experiments show that TransHP improves image classification on accuracy (e.g., improving ViT-B/16 by +2.83% ImageNet classification accuracy), training data efficiency (e.g., +12.69% improvement under 10% ImageNet training data), and model explainability. Moreover, TransHP also performs favorably against prior HIC methods, showing that TransHP well exploits the hierarchical information.

arxiv情報

著者 Wenhao Wang,Yifan Sun,Wei Li,Yi Yang
発行日 2023-04-13 10:37:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク