TransHP: Image Classification with Hierarchical Prompting

要約

この論文では、階層画像分類 (HIC) タスクのための階層プロンプト メカニズムについて検討します。
以前の HIC 手法とは異なり、私たちの階層プロンプティングは、子孫クラスの識別に役立つトークン化されたヒントとして祖先クラスの情報を明示的に挿入する初めてのものです。
これは人間の視覚認識をよく模倣していると考えられます。つまり、人間は子孫クラス間の微妙な違いに焦点を当てるためのプロンプトとして祖先クラスを使用する可能性があります。
このプロンプト メカニズムを、階層型プロンプトを備えた Transformer (TransHP) にモデル化します。
TransHP は 3 つのステップで構成されます: 1) 粗い (祖先) クラスを表すプロンプト トークンのセットを学習する、2) 中間ブロックで入力画像の粗いクラスをオンザフライで予測する、3) プロンプト トークンを注入する
予測された粗いクラスを中間特徴に変換します。
TransHP のパラメータはすべての入力画像で同じに維持されますが、注入された粗いクラスのプロンプトにより、後続の特徴抽出が条件付け (変更) され、子孫クラス間の比較的微妙な違いに動的に焦点を当てることが促進されます。
広範な実験により、TransHP が画像分類の精度 (例: ViT-B/16 を ImageNet 分類精度 +2.83% 向上)、トレーニング データ効率 (例: ImageNet トレーニング データ 10% で +12.69% 向上)、およびモデルの説明可能性が向上することが示されています。
さらに、TransHP は従来の HIC 方式に対しても有利に動作し、TransHP が階層情報をうまく活用していることを示しています。

要約(オリジナル)

This paper explores a hierarchical prompting mechanism for the hierarchical image classification (HIC) task. Different from prior HIC methods, our hierarchical prompting is the first to explicitly inject ancestor-class information as a tokenized hint that benefits the descendant-class discrimination. We think it well imitates human visual recognition, i.e., humans may use the ancestor class as a prompt to draw focus on the subtle differences among descendant classes. We model this prompting mechanism into a Transformer with Hierarchical Prompting (TransHP). TransHP consists of three steps: 1) learning a set of prompt tokens to represent the coarse (ancestor) classes, 2) on-the-fly predicting the coarse class of the input image at an intermediate block, and 3) injecting the prompt token of the predicted coarse class into the intermediate feature. Though the parameters of TransHP maintain the same for all input images, the injected coarse-class prompt conditions (modifies) the subsequent feature extraction and encourages a dynamic focus on relatively subtle differences among the descendant classes. Extensive experiments show that TransHP improves image classification on accuracy (e.g., improving ViT-B/16 by +2.83% ImageNet classification accuracy), training data efficiency (e.g., +12.69% improvement under 10% ImageNet training data), and model explainability. Moreover, TransHP also performs favorably against prior HIC methods, showing that TransHP well exploits the hierarchical information.

arxiv情報

著者 Wenhao Wang,Yifan Sun,Wei Li,Yi Yang
発行日 2023-10-13 12:43:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク