Efficient Shapley Values Estimation by Amortization for Text Classification

要約

ニューラル テキスト分類モデルを説明する際に Shapley 値が人気があるにもかかわらず、モデル評価の数が多いため、大規模な事前トレーニング済みモデルの場合、Shapley 値を計算するのは法外です。
実際には、シャプレー値は少数の確率モデル評価を使用して推定されることがよくあります。
ただし、推定された Shapley 値は、ランダムなシードの選択に影響を受けやすいことを示します。特に長い入力テキストを含む例では、上位にランク付けされた特徴は、異なるシード間でほとんど重複しないことがよくあります。
これは、数千のモデル評価を集約することによってのみ軽減できますが、一方で、かなりの計算オーバーヘッドが発生します。
安定性と効率の間のトレードオフを軽減するために、追加のモデル評価を行わずに各入力フィーチャの Shapley 値を直接予測する償却モデルを開発します。
安定性を確保するために、多数のモデル評価から Shapley 値が推定される一連の例でトレーニングされます。
2 つのテキスト分類データセットの実験結果は、当社の償却モデルが従来の方法と比較して最大 60 倍の速度で正確にシャプレー値を推定することを示しています。
さらに、推論が決定論的であるため、推定値は安定しています。
コードは https://github.com/yangalan123/Amortized-Interpretability でリリースされています。

要約(オリジナル)

Despite the popularity of Shapley Values in explaining neural text classification models, computing them is prohibitive for large pretrained models due to a large number of model evaluations. In practice, Shapley Values are often estimated with a small number of stochastic model evaluations. However, we show that the estimated Shapley Values are sensitive to random seed choices — the top-ranked features often have little overlap across different seeds, especially on examples with longer input texts. This can only be mitigated by aggregating thousands of model evaluations, which on the other hand, induces substantial computational overheads. To mitigate the trade-off between stability and efficiency, we develop an amortized model that directly predicts each input feature’s Shapley Value without additional model evaluations. It is trained on a set of examples whose Shapley Values are estimated from a large number of model evaluations to ensure stability. Experimental results on two text classification datasets demonstrate that our amortized model estimates Shapley Values accurately with up to 60 times speedup compared to traditional methods. Furthermore, the estimated values are stable as the inference is deterministic. We release our code at https://github.com/yangalan123/Amortized-Interpretability.

arxiv情報

著者 Chenghao Yang,Fan Yin,He He,Kai-Wei Chang,Xiaofei Ma,Bing Xiang
発行日 2023-05-31 16:19:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク