Multi-resolution Interpretation and Diagnostics Tool for Natural Language Classifiers

要約

自然言語処理 (NLP) モデルの説明可能性手法の開発は、主に 2 つの理由から困難な作業です。
まず、データの次元が高い (トークンの数が多い) ため、カバレッジが低くなり、モデル全体のパフォーマンスと比較して上位のトークンの貢献度が低くなります。
第 2 に、テキストの性質上、適切な変換後の入力変数は実質的に 2 値 (観測内のトークンの有無) であり、入出力関係を理解するのが難しくなります。
一般的な NLP 解釈手法は、通常、単語レベルで動作し、完全にローカル (メッセージ レベル) または完全にグローバル (すべてのメッセージにわたって) の要約を提供するため、解決に柔軟性がありません。
このホワイト ペーパーの目標は、意味的に相互に関連する観察のセグメントまたは単語のクラスターによって、より柔軟なモデルの説明可能性の要約を作成することです。
さらに、さまざまなセグメントからの代表的な偽陽性と偽陰性の例を分析することにより、NLP モデルの根本原因分析方法を紹介します。
最後に、3 つのセグメント (レストラン、ホテル、ビューティー) を含む Yelp レビュー データ セットを使用して、単語やメッセージのグループ/クラスター構造を利用することで、NLP モデルによって行われた決定の解釈を支援できることを示します。
性別、構文、および単語の意味に対するモデルの感度またはバイアスを評価するために利用されます。

要約(オリジナル)

Developing explainability methods for Natural Language Processing (NLP) models is a challenging task, for two main reasons. First, the high dimensionality of the data (large number of tokens) results in low coverage and in turn small contributions for the top tokens, compared to the overall model performance. Second, owing to their textual nature, the input variables, after appropriate transformations, are effectively binary (presence or absence of a token in an observation), making the input-output relationship difficult to understand. Common NLP interpretation techniques do not have flexibility in resolution, because they usually operate at word-level and provide fully local (message level) or fully global (over all messages) summaries. The goal of this paper is to create more flexible model explainability summaries by segments of observation or clusters of words that are semantically related to each other. In addition, we introduce a root cause analysis method for NLP models, by analyzing representative False Positive and False Negative examples from different segments. At the end, we illustrate, using a Yelp review data set with three segments (Restaurant, Hotel, and Beauty), that exploiting group/cluster structures in words and/or messages can aid in the interpretation of decisions made by NLP models and can be utilized to assess the model’s sensitivity or bias towards gender, syntax, and word meanings.

arxiv情報

著者 Peyman Jalali,Nengfeng Zhou,Yufei Yu
発行日 2023-03-06 22:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク