CELL your Model: Contrastive Explanations for Large Language Models

要約

ブラックボックスディープニューラルネットワーク分類モデルの出現により、その決定を説明する必要性が高まりました。
ただし、大規模言語モデル (LLM) などの生成 AI の場合、説明できるクラス予測はありません。
むしろ、LLM が特定のプロンプトに対して特定の応答を出力する理由を尋ねることができます。
この論文では、私たちの知る限り、単にブラックボックス/クエリへのアクセスを必要とする最初の対照的な説明方法を提案することで、この質問に答えます。
私たちの説明では、プロンプトがわずかに変更された場合、LLM は元の応答とあまり好ましくない、または矛盾する別の応答を返すため、LLM は指定されたプロンプトに対して応答を出力することを示唆しています。
重要な洞察は、対照的な説明には、ユーザーにとって意味のあるスコアリング関数が必要なだけであり、必ずしも特定の実際の値の数量 (つまりクラス ラベル) が必要ではないということです。
私たちは、対照的な説明を見つけるための 2 つのアルゴリズムを提供しています。i) 近視眼的なアルゴリズム。コントラストの作成には効果的ですが、多くのモデル呼び出しが必要です。ii) 予算付きアルゴリズム。これは、私たちの主なアルゴリズム貢献であり、クエリの予算に準拠したコントラストをインテリジェントに作成します。
より長いコンテキスト。
私たちは、オープンテキストの生成、自動レッドチーム化、会話の劣化の説明など、さまざまな自然言語タスクに対するこれらの手法の有効性を示します。

要約(オリジナル)

The advent of black-box deep neural network classification models has sparked the need to explain their decisions. However, in the case of generative AI, such as large language models (LLMs), there is no class prediction to explain. Rather, one can ask why an LLM output a particular response to a given prompt. In this paper, we answer this question by proposing, to the best of our knowledge, the first contrastive explanation methods requiring simply black-box/query access. Our explanations suggest that an LLM outputs a reply to a given prompt because if the prompt was slightly modified, the LLM would have given a different response that is either less preferable or contradicts the original response. The key insight is that contrastive explanations simply require a scoring function that has meaning to the user and not necessarily a specific real valued quantity (viz. class label). We offer two algorithms for finding contrastive explanations: i) A myopic algorithm, which although effective in creating contrasts, requires many model calls and ii) A budgeted algorithm, our main algorithmic contribution, which intelligently creates contrasts adhering to a query budget, necessary for longer contexts. We show the efficacy of these methods on diverse natural language tasks such as open-text generation, automated red teaming, and explaining conversational degradation.

arxiv情報

著者 Ronny Luss,Erik Miehling,Amit Dhurandhar
発行日 2024-10-16 15:15:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク