Accelerating the Global Aggregation of Local Explanations

要約

ローカルな説明方法では、手元の文書の分類結果に大きな影響を与える入力トークンが強調表示されます。
たとえば、アンカー アルゴリズムは、トークンの変更に対する分類子の感度の統計分析を適用します。
データセット上でローカルな説明を集約すると、モデルのグローバルな説明が提供されます。
このような集計は、最も影響力のある単語を検出することを目的としており、トレーニングで学習した内容や、どの敵対的な例がモデルの弱点を明らかにするかなど、モデルに関する貴重な洞察を提供します。
ただし、標準的な集計方法には高い計算コストがかかります。単純な実装では、各ドキュメントの各トークンにコストのかかるアルゴリズムが適用されるため、短い分析セッションの範囲内で実行する単純なユーザーには実行できません。
% 私たちは、アンカー アルゴリズムのグローバルな集約を高速化するための手法を考案します。
具体的には、私たちの目標は、さまざまな集計関数に従って、グローバルな影響が最も大きい上位 $k$ の単語のセットを計算することです。
私たちの技術には、損失のないものと損失のあるものがあります。
品質が非常に軽度に低下した場合、計算を最大 30$\times$ 高速化し、計算時間を数時間から数分に短縮できることを示します。
また、アンカー アルゴリズムのノイズを考慮し、頻繁に使用されるが影響力の低い単語に対するバイアスを軽減する確率モデルを考案および研究します。

要約(オリジナル)

Local explanation methods highlight the input tokens that have a considerable impact on the outcome of classifying the document at hand. For example, the Anchor algorithm applies a statistical analysis of the sensitivity of the classifier to changes in the token. Aggregating local explanations over a dataset provides a global explanation of the model. Such aggregation aims to detect words with the most impact, giving valuable insights about the model, like what it has learned in training and which adversarial examples expose its weaknesses. However, standard aggregation methods bear a high computational cost: a na\’ive implementation applies a costly algorithm to each token of each document, and hence, it is infeasible for a simple user running in the scope of a short analysis session. % We devise techniques for accelerating the global aggregation of the Anchor algorithm. Specifically, our goal is to compute a set of top-$k$ words with the highest global impact according to different aggregation functions. Some of our techniques are lossless and some are lossy. We show that for a very mild loss of quality, we are able to accelerate the computation by up to 30$\times$, reducing the computation from hours to minutes. We also devise and study a probabilistic model that accounts for noise in the Anchor algorithm and diminishes the bias toward words that are frequent yet low in impact.

arxiv情報

著者 Alon Mor,Yonatan Belinkov,Benny Kimelfeld
発行日 2024-01-12 14:18:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク