Language in a Bottle: Language Model Guided Concept Bottlenecks for Interpretable Image Classification

要約

タイトル:言語モデルによる概念ボトルネックを利用した解釈可能な画像分類

要約:

– 概念ボトルネックモデル(CBM)は、モデルの判断を人間が読みやすい概念に分解することができ解釈可能なモデルである。
– CBMは手動で概念を指定する必要があり、しばしばブラックボックスのモデルに比べて性能が低下してしまい、広く採用されることはできなかった。
– 本研究は、GPT-3という言語モデルを用いて、手動での概念指定を必要とせず高性能なCBMを構築する方法を初めて示した。
– 本研究では、言語モデルを使用して、問題ドメインに関する事実的な文からカテゴリについての候補概念を形成することができる「Language Guided Bottlenecks (LaBo)」という手法を提案した。
– LaBoは、新しいサブモジュラユーティリティを用いた効率的なボトルネック検索を行い、識別性と複雑性の高い情報を選択することができる。
– LaBoでは、GPT-3の文概念をCLIPによって画像に対応させ、ボトルネック層を形成することができる。
– 実験結果では、11種類の多様なデータセットにおいて、LaBoは1ショットの分類においてブラックボックスの線形プローブより11.7%高い精度を示し、より多くのデータと比較しても同等の精度を示した。
– このように、LaBoは解釈可能なモデルを広く採用し、ブラックボックスのアプローチと同等もしくはそれ以上の性能を発揮することができることを示し、高い実用性が期待される。

要約(オリジナル)

Concept Bottleneck Models (CBM) are inherently interpretable models that factor model decisions into human-readable concepts. They allow people to easily understand why a model is failing, a critical feature for high-stakes applications. CBMs require manually specified concepts and often under-perform their black box counterparts, preventing their broad adoption. We address these shortcomings and are first to show how to construct high-performance CBMs without manual specification of similar accuracy to black box models. Our approach, Language Guided Bottlenecks (LaBo), leverages a language model, GPT-3, to define a large space of possible bottlenecks. Given a problem domain, LaBo uses GPT-3 to produce factual sentences about categories to form candidate concepts. LaBo efficiently searches possible bottlenecks through a novel submodular utility that promotes the selection of discriminative and diverse information. Ultimately, GPT-3’s sentential concepts can be aligned to images using CLIP, to form a bottleneck layer. Experiments demonstrate that LaBo is a highly effective prior for concepts important to visual recognition. In the evaluation with 11 diverse datasets, LaBo bottlenecks excel at few-shot classification: they are 11.7% more accurate than black box linear probes at 1 shot and comparable with more data. Overall, LaBo demonstrates that inherently interpretable models can be widely applied at similar, or better, performance than black box approaches.

arxiv情報

著者 Yue Yang,Artemis Panagopoulou,Shenghao Zhou,Daniel Jin,Chris Callison-Burch,Mark Yatskar
発行日 2023-04-25 22:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク