Concept-Level Explainability for Auditing & Steering LLM Responses

要約

大規模な言語モデル(LLM)が広く展開されると、安全性と整合性に関する懸念が高まります。
バイアスの軽減や脱獄に対する防御など、LLMの動作を操縦するアプローチは、迅速な部分のどの部分がモデルの出力の特定の側面に影響するかを特定することです。
トークンレベルの帰属方法は有望な解決策を提供しますが、テキスト生成に苦労しており、LLM応答全体の根本的なセマンティクスではなく、出力内の各トークンの存在を個別に説明しています。
概念を識別するモデルに依存しない、コンセプトレベルの説明可能性方法、つまりプロンプトの意味的にリッチなトークンであるConcectxを紹介し、出力のセマンティックな類似性に基づいて重要性を割り当てます。
現在のトークンレベルのメソッドとは異なり、ConceptXは、インプレーストークンの交換を通じてコン​​テキストの完全性を維持し、柔軟な説明目標など、性別バイアスをサポートします。
ConceptXは、再訓練を必要とせずに、感情をシフトしてLLM応答の有害性を減らすためにプロンプ​​トを変更することにより、バイアスのソースを明らかにすることにより、監査とステアリングの両方を有効にします。
3つのLLMにわたって、ConceptXは、忠実さと人間の整合の両方でトークンシャップのようなトークンレベルの方法を上回ります。
ステアリングタスクは、ランダム編集で0.131に対して0.252のセンチメントシフトを増加させ、攻撃の成功率を0.463から0.242に増やし、アウトパフォーマンスの帰属と言い換えベースラインを上回ります。
迅速なエンジニアリングと自己探求方法は、より安全な応答をもたらすことがありますが、ConceptXはLLMの安全性とアラインメントを改善するための透明で忠実な代替手段を提供し、LLMの動作を導く際の帰属に基づいた説明可能性の実用的な価値を実証します。

要約(オリジナル)

As large language models (LLMs) become widely deployed, concerns about their safety and alignment grow. An approach to steer LLM behavior, such as mitigating biases or defending against jailbreaks, is to identify which parts of a prompt influence specific aspects of the model’s output. Token-level attribution methods offer a promising solution, but still struggle in text generation, explaining the presence of each token in the output separately, rather than the underlying semantics of the entire LLM response. We introduce ConceptX, a model-agnostic, concept-level explainability method that identifies the concepts, i.e., semantically rich tokens in the prompt, and assigns them importance based on the outputs’ semantic similarity. Unlike current token-level methods, ConceptX also offers to preserve context integrity through in-place token replacements and supports flexible explanation goals, e.g., gender bias. ConceptX enables both auditing, by uncovering sources of bias, and steering, by modifying prompts to shift the sentiment or reduce the harmfulness of LLM responses, without requiring retraining. Across three LLMs, ConceptX outperforms token-level methods like TokenSHAP in both faithfulness and human alignment. Steering tasks boost sentiment shift by 0.252 versus 0.131 for random edits and lower attack success rates from 0.463 to 0.242, outperforming attribution and paraphrasing baselines. While prompt engineering and self-explaining methods sometimes yield safer responses, ConceptX offers a transparent and faithful alternative for improving LLM safety and alignment, demonstrating the practical value of attribution-based explainability in guiding LLM behavior.

arxiv情報

著者 Kenza Amara,Rita Sevastjanova,Mennatallah El-Assady
発行日 2025-05-12 14:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク