PEEB: Part-based Image Classifiers with an Explainable and Editable Language Bottleneck

要約

CLIP ベースの分類子は、テキスト エンコーダーが認識している {class name} を含むプロンプトに依存します。
つまり、CLIP は、新しいクラスや、名前がインターネット上にめったに表示されないクラス (鳥の学名など) ではパフォーマンスが低下します。
詳細な分類のために、説明可能で編集可能な分類子である PEEB を提案します。(1) クラス名を、そのクラスの視覚的な部分を説明する事前定義されたテキスト記述子のセットに表現します。
(2) 検出された部分の埋め込みを各クラスのテキスト記述子と照合して、分類のためのロジット スコアを計算します。
クラス名が不明なゼロショット設定では、PEEB は CLIP よりも大幅にパフォーマンスが優れています (精度で約 10 倍)。
パーツベースの分類子と比較すると、PEEB は教師あり学習設定 (精度 88.80%) において最先端であるだけでなく、ユーザーが再トレーニングせずにクラス定義を編集して新しい分類子を形成できるようにした最初のツールでもあります。
コンセプトのボトルネック モデルと比較すると、PEEB はゼロショット学習設定と教師あり学習設定の両方において最先端でもあります。

要約(オリジナル)

CLIP-based classifiers rely on the prompt containing a {class name} that is known to the text encoder. That is, CLIP performs poorly on new classes or the classes whose names rarely appear on the Internet (e.g., scientific names of birds). For fine-grained classification, we propose PEEB – an explainable and editable classifier to (1) express the class name into a set of pre-defined text descriptors that describe the visual parts of that class; and (2) match the embeddings of the detected parts to their textual descriptors in each class to compute a logit score for classification. In a zero-shot setting where the class names are unknown, PEEB outperforms CLIP by a large margin (~10x in accuracy). Compared to part-based classifiers, PEEB is not only the state-of-the-art on the supervised-learning setting (88.80% accuracy) but also the first to enable users to edit the class definitions to form a new classifier without retraining. Compared to concept bottleneck models, PEEB is also the state-of-the-art in both zero-shot and supervised learning settings.

arxiv情報

著者 Thang M. Pham,Peijie Chen,Tin Nguyen,Seunghyun Yoon,Trung Bui,Anh Nguyen
発行日 2024-03-08 13:24:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク