PEEB: Part-based Image Classifiers with an Explainable and Editable Language Bottleneck

要約

CLIP ベースの分類子は、テキスト エンコーダーが認識している {class name} を含むプロンプトに依存します。
したがって、新しいクラスや、名前がインターネット上にほとんど表示されないクラス (鳥の学名など) ではパフォーマンスが低下します。
詳細な分類のために、説明可能で編集可能な分類子である PEEB を提案します。(1) クラス名を、そのクラスの視覚的な部分を説明する一連のテキスト記述子に表現します。
(2) 検出された部分の埋め込みを各クラスのテキスト記述子と照合して、分類のためのロジット スコアを計算します。
クラス名が不明なゼロショット設定では、PEEB は CLIP を大幅に上回ります (トップ 1 の精度で約 10 倍)。
パーツベースの分類器と比較すると、PEEB は教師あり学習設定において最先端 (SOTA) (CUB-200 と Dogs-120 でそれぞれ 88.80% と 92.20% の精度) であるだけでなく、最初のものでもあります。
ユーザーが再トレーニングせずにテキスト記述子を編集して新しい分類子を形成できるようにします。
コンセプトのボトルネック モデルと比較すると、PEEB はゼロショット設定と教師あり学習設定の両方における SOTA でもあります。

要約(オリジナル)

CLIP-based classifiers rely on the prompt containing a {class name} that is known to the text encoder. Therefore, they perform poorly on new classes or the classes whose names rarely appear on the Internet (e.g., scientific names of birds). For fine-grained classification, we propose PEEB – an explainable and editable classifier to (1) express the class name into a set of text descriptors that describe the visual parts of that class; and (2) match the embeddings of the detected parts to their textual descriptors in each class to compute a logit score for classification. In a zero-shot setting where the class names are unknown, PEEB outperforms CLIP by a huge margin (~10x in top-1 accuracy). Compared to part-based classifiers, PEEB is not only the state-of-the-art (SOTA) on the supervised-learning setting (88.80% and 92.20% accuracy on CUB-200 and Dogs-120, respectively) but also the first to enable users to edit the text descriptors to form a new classifier without any re-training. Compared to concept bottleneck models, PEEB is also the SOTA in both zero-shot and supervised-learning settings.

arxiv情報

著者 Thang M. Pham,Peijie Chen,Tin Nguyen,Seunghyun Yoon,Trung Bui,Anh Nguyen
発行日 2024-04-08 12:17:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク