要約
ブラックボックス化されたディープニューラルネットワークはテキスト分類に優れているが、その解釈可能性の欠如により、重要な領域への応用が妨げられている。この問題に対処するために、我々はテキストボトルネックモデル(TBM)を提案する。TBMは、グローバルとローカルの両方の説明を提供する、本質的に解釈可能なテキスト分類フレームワークである。TBMは、出力ラベルを直接予測するのではなく、顕著な概念の疎な集合のカテゴリ値を予測し、それらの概念値に線形レイヤーを用いて最終的な予測を行う。これらの概念は、大規模言語モデル(Large Language Model: LLM)によって自動的に発見され、人間のキュレーションを必要とせずに測定される。12の多様なテキスト理解データセットでの実験により、TBMは、数ショットGPT-4やファインチューニングされたDeBERTaのようなブラックボックス・ベースラインの性能に匹敵することが実証されているが、ファインチューニングされたGPT-3.5には及ばない。包括的な人間評価により、TBMがタスクに関連した高品質の概念を生成できることが検証され、概念測定は人間の判断とよく一致し、TBMによる予測は解釈可能であることが示唆された。全体として、我々の発見は、TBMが最小限の性能トレードオフで解釈可能性を高める有望な新しいフレームワークであることを示唆している。
要約(オリジナル)
Black-box deep neural networks excel in text classification, yet their application in high-stakes domains is hindered by their lack of interpretability. To address this, we propose Text Bottleneck Models (TBM), an intrinsically interpretable text classification framework that offers both global and local explanations. Rather than directly predicting the output label, TBM predicts categorical values for a sparse set of salient concepts and uses a linear layer over those concept values to produce the final prediction. These concepts can be automatically discovered and measured by a Large Language Model (LLM) without the need for human curation. Experiments on 12 diverse text understanding datasets demonstrate that TBM can rival the performance of black-box baselines such as few-shot GPT-4 and finetuned DeBERTa while falling short against finetuned GPT-3.5. Comprehensive human evaluation validates that TBM can generate high-quality concepts relevant to the task, and the concept measurement aligns well with human judgments, suggesting that the predictions made by TBMs are interpretable. Overall, our findings suggest that TBM is a promising new framework that enhances interpretability with minimal performance tradeoffs.
arxiv情報
| 著者 | Josh Magnus Ludan,Qing Lyu,Yue Yang,Liam Dugan,Mark Yatskar,Chris Callison-Burch |
| 発行日 | 2024-04-03 14:29:03+00:00 |
| arxivサイト | arxiv_id(pdf) |