Word Importance Explains How Prompts Affect Language Model Outputs

要約

大規模言語モデル (LLM) の出現により、業界全体の数多くのアプリケーションに革命が起きました。
しかし、その「ブラックボックス」の性質により、特定の意思決定がどのように行われるかを理解することが妨げられることが多く、その透明性、信頼性、倫理的な使用についての懸念が生じています。
この研究では、プロンプト内の個々の単語を変更して、モデル出力に対する統計的影響を明らかにすることで、LLM の説明可能性を向上させる方法を紹介します。
このアプローチは、表形式データの順列の重要性に着想を得ており、システム プロンプト内の各単語をマスクし、複数のユーザー入力を集計した利用可能なテキスト スコアに基づいて出力への影響を評価します。
従来の注意とは異なり、単語の重要度は、任意に定義されたテキスト スコアに対するプロンプト ワードの影響を測定します。これにより、単語の重要性を、バイアス、読解レベル、冗長性など、関心のある特定の尺度に分解できます。この手順により、影響を測定することもできます。
アテンションウェイトが利用できない場合。
このアプローチの忠実性をテストするために、複数の異なるシステム プロンプトに異なるサフィックスを追加し、その後の世代を異なる大規模な言語モデルと比較することの効果を調査します。
結果は、単語の重要度スコアが、複数のスコアリング関数の予想される接尾辞の重要度と密接に関連していることを示しています。

要約(オリジナル)

The emergence of large language models (LLMs) has revolutionized numerous applications across industries. However, their ‘black box’ nature often hinders the understanding of how they make specific decisions, raising concerns about their transparency, reliability, and ethical use. This study presents a method to improve the explainability of LLMs by varying individual words in prompts to uncover their statistical impact on the model outputs. This approach, inspired by permutation importance for tabular data, masks each word in the system prompt and evaluates its effect on the outputs based on the available text scores aggregated over multiple user inputs. Unlike classical attention, word importance measures the impact of prompt words on arbitrarily-defined text scores, which enables decomposing the importance of words into the specific measures of interest–including bias, reading level, verbosity, etc. This procedure also enables measuring impact when attention weights are not available. To test the fidelity of this approach, we explore the effect of adding different suffixes to multiple different system prompts and comparing subsequent generations with different large language models. Results show that word importance scores are closely related to the expected suffix importances for multiple scoring functions.

arxiv情報

著者 Stefan Hackmann,Haniyeh Mahmoudian,Mark Steadman,Michael Schmidt
発行日 2024-03-05 15:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク