Evaluating self-attention interpretability through human-grounded experimental protocol

要約

注意メカニズムは、自然言語処理におけるトランスフォーマーなどの複雑なアーキテクチャの開発において重要な役割を果たしてきました。
ただし、トランスフォーマーは依然として解釈が難しく、ブラックボックスと見なされています。
このホワイト ペーパーでは、トランスフォーマーのアテンション係数が解釈可能性の提供にどのように役立つかを評価することを目的としています。
CLaSsification-Attention (CLS-A) と呼ばれる新しい注意ベースの解釈可能性手法が提案されています。
CLS-A は、Transformer アーキテクチャ内の分類タスクに固有の部分に関連する注意係数の分布に基づいて、各単語の解釈可能性スコアを計算します。
CLS-Aを評価し、他の解釈可能性方法と比較するために、人間に基づいた実験が行われます。
実験プロトコルは、人間の推論に沿った説明を提供する解釈可能性の方法の能力に依存しています。
実験計画には、被験者による反応時間と正答率の測定が含まれます。
CLS-A は、参加者の平均反応時間と精度に関して、通常の解釈可能性メソッドと同等のパフォーマンスを発揮します。
CLS-A は、他の解釈可能性手法と比較して計算コストが低く、分類器内で設計により利用できるため、特に興味深いものになっています。
データ分析は、分類子予測の確率スコアと適切な説明との間のリンクも強調します。
最後に、私たちの仕事はCLS-Aの使用の関連性を確認し、トランスフォーマー分類子を説明するための豊富な情報が自己注意にどの程度含まれているかを示しています.

要約(オリジナル)

Attention mechanisms have played a crucial role in the development of complex architectures such as Transformers in natural language processing. However, Transformers remain hard to interpret and are considered as black-boxes. This paper aims to assess how attention coefficients from Transformers can help in providing interpretability. A new attention-based interpretability method called CLaSsification-Attention (CLS-A) is proposed. CLS-A computes an interpretability score for each word based on the attention coefficient distribution related to the part specific to the classification task within the Transformer architecture. A human-grounded experiment is conducted to evaluate and compare CLS-A to other interpretability methods. The experimental protocol relies on the capacity of an interpretability method to provide explanation in line with human reasoning. Experiment design includes measuring reaction times and correct response rates by human subjects. CLS-A performs comparably to usual interpretability methods regarding average participant reaction time and accuracy. The lower computational cost of CLS-A compared to other interpretability methods and its availability by design within the classifier make it particularly interesting. Data analysis also highlights the link between the probability score of a classifier prediction and adequate explanations. Finally, our work confirms the relevancy of the use of CLS-A and shows to which extent self-attention contains rich information to explain Transformer classifiers.

arxiv情報

著者 Milan Bhan,Nina Achache,Victor Legrand,Annabelle Blangero,Nicolas Chesneau
発行日 2023-03-27 13:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク