Self-supervised Interpretable Concept-based Models for Text Classification

要約

大言語モデル (LLM) は成功したにもかかわらず、解釈可能性の欠如により制御性と信頼性が制限されるため、依然として批判にさらされています。
注意力と勾配ベースの分析に基づく従来の事後解釈手法では、モデルの意思決定プロセスについての洞察が限られています。
画像分野では、人間が解釈可能な機能を中間表現として採用した、設計による説明が可能なアーキテクチャとしてコンセプトベースのモデルが登場しました。
ただし、これらの方法はまだテキスト データには適用されていません。主な理由は、高価な概念注釈が必要であり、現実世界のテキスト データには実用的ではないためです。
この論文では、自己教師ありの解釈可能な概念埋め込みモデル (ICEM) を提案することで、この課題に対処します。
LLM の一般化機能を活用して、自己教師ありの方法で概念ラベルを予測し、解釈可能な関数を使用して最終予測を提供します。
私たちの実験の結果は、ICEM が自己教師ありの方法でトレーニングされ、完全に教師付きのコンセプトベースのモデルやエンドツーエンドのブラックボックスモデルと同様のパフォーマンスを達成できることを示しています。
さらに、私たちのモデルは (i) 解釈可能であり、予測に対して有意義な論理的説明を提供することを示します。
(ii) インタラクティブであり、人間が概念介入を通じて中間予測を修正できるようにする。
(iii) 制御可能であり、必要な意思決定パスに従うように LLM のデコード プロセスをガイドします。

要約(オリジナル)

Despite their success, Large-Language Models (LLMs) still face criticism as their lack of interpretability limits their controllability and reliability. Traditional post-hoc interpretation methods, based on attention and gradient-based analysis, offer limited insight into the model’s decision-making processes. In the image field, Concept-based models have emerged as explainable-by-design architectures, employing human-interpretable features as intermediate representations. However, these methods have not been yet adapted to textual data, mainly because they require expensive concept annotations, which are impractical for real-world text data. This paper addresses this challenge by proposing a self-supervised Interpretable Concept Embedding Models (ICEMs). We leverage the generalization abilities of LLMs to predict the concepts labels in a self-supervised way, while we deliver the final predictions with an interpretable function. The results of our experiments show that ICEMs can be trained in a self-supervised way achieving similar performance to fully supervised concept-based models and end-to-end black-box ones. Additionally, we show that our models are (i) interpretable, offering meaningful logical explanations for their predictions; (ii) interactable, allowing humans to modify intermediate predictions through concept interventions; and (iii) controllable, guiding the LLMs’ decoding process to follow a required decision-making path.

arxiv情報

著者 Francesco De Santis,Philippe Bich,Gabriele Ciravegna,Pietro Barbiero,Danilo Giordano,Tania Cerquitelli
発行日 2024-06-20 14:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク