要約
LIME や SHAP などの摂動ベースの説明手法は、一般的にテキスト分類に適用されます。
この研究は、生成言語モデルへの拡張に焦点を当てています。
出力としてのテキストと長いテキスト入力の課題に対処するために、さまざまなアトリビューション アルゴリズムでインスタンス化できる MExGen と呼ばれる一般的なフレームワークを提案します。
テキスト出力を処理するために、テキストを実数にマッピングするためのスカラライザーの概念を導入し、複数の可能性を調査します。
長い入力を処理するために、私たちはマルチレベルのアプローチを採用し、粒度の粗いレベルから細かいレベルに進み、モデル クエリの線形スケーリングを備えたアルゴリズムに焦点を当てます。
私たちは、要約と文脈に基づいた質問応答のための摂動ベースの帰属手法の体系的な評価を、自動化と人間の両方で実施します。
結果は、私たちのフレームワークが、生成された出力のより局所的に忠実な説明を提供できることを示しています。
要約(オリジナル)
Perturbation-based explanation methods such as LIME and SHAP are commonly applied to text classification. This work focuses on their extension to generative language models. To address the challenges of text as output and long text inputs, we propose a general framework called MExGen that can be instantiated with different attribution algorithms. To handle text output, we introduce the notion of scalarizers for mapping text to real numbers and investigate multiple possibilities. To handle long inputs, we take a multi-level approach, proceeding from coarser levels of granularity to finer ones, and focus on algorithms with linear scaling in model queries. We conduct a systematic evaluation, both automated and human, of perturbation-based attribution methods for summarization and context-grounded question answering. The results show that our framework can provide more locally faithful explanations of generated outputs.
arxiv情報
著者 | Lucas Monteiro Paes,Dennis Wei,Hyo Jin Do,Hendrik Strobelt,Ronny Luss,Amit Dhurandhar,Manish Nagireddy,Karthikeyan Natesan Ramamurthy,Prasanna Sattigeri,Werner Geyer,Soumya Ghosh |
発行日 | 2024-03-21 15:06:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google