要約
顕著性マップは、重要な入力特徴を特定することでニューラル モデルの予測を説明できます。
特に多くの機能を持つインスタンスの場合、素人には解釈が困難です。
それらをよりアクセスしやすくするために、顕著性マップを自然言語に翻訳するという未開発のタスクを形式化し、このアプローチの 2 つの重要な課題 (何をどのように言語化するか) に対処する方法を比較します。
自動評価セットアップと人的評価セットアップの両方で、テキスト分類タスクからのトークンレベルの属性を使用して、2 つの新しい方法 (検索ベースおよび命令ベースの言語化) を従来の特徴重要度表現 (ヒートマップ視覚化と抽出根拠) と比較し、シミュレーション可能性、忠実性を測定します。
、有用性とわかりやすさ。
GPT-3.5 に顕著性マップの言語化を生成するよう指示すると、関連性、抽象的な要約、常識的な推論を含むもっともらしい説明が得られ、人間による断然最高の評価が得られますが、数値情報を忠実に捉えておらず、タスクの解釈に一貫性がありません。
比較すると、当社の検索ベースでモデルフリーの言語化アプローチは、テンプレート化された言語化を効率的に完了し、設計上忠実ですが、有用性とシミュレーション可能性の点で不十分です。
私たちの結果は、顕著性マップの言語化により、従来の表現よりも特徴の帰属の説明がより理解しやすくなり、人間にとって認知的な困難が軽減されることを示唆しています。
要約(オリジナル)
Saliency maps can explain a neural model’s predictions by identifying important input features. They are difficult to interpret for laypeople, especially for instances with many features. In order to make them more accessible, we formalize the underexplored task of translating saliency maps into natural language and compare methods that address two key challenges of this approach — what and how to verbalize. In both automatic and human evaluation setups, using token-level attributions from text classification tasks, we compare two novel methods (search-based and instruction-based verbalizations) against conventional feature importance representations (heatmap visualizations and extractive rationales), measuring simulatability, faithfulness, helpfulness and ease of understanding. Instructing GPT-3.5 to generate saliency map verbalizations yields plausible explanations which include associations, abstractive summarization and commonsense reasoning, achieving by far the highest human ratings, but they are not faithfully capturing numeric information and are inconsistent in their interpretation of the task. In comparison, our search-based, model-free verbalization approach efficiently completes templated verbalizations, is faithful by design, but falls short in helpfulness and simulatability. Our results suggest that saliency map verbalization makes feature attribution explanations more comprehensible and less cognitively challenging to humans than conventional representations.
arxiv情報
著者 | Nils Feldhus,Leonhard Hennig,Maximilian Dustin Nasert,Christopher Ebert,Robert Schwarzenberg,Sebastian Möller |
発行日 | 2023-05-30 14:34:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google