A Causal Explainable Guardrails for Large Language Models

要約

大規模言語モデル (LLM) は、自然言語タスクにおいて優れたパフォーマンスを示していますが、その出力には望ましくない属性やバイアスが示される可能性があります。
LLM を目的の属性に向けて操作する既存の方法は、多くの場合、不偏表現を前提としており、操作プロンプトのみに依存しています。
ただし、事前トレーニングから学習した表現によって、ステアリング プロセスに影響を与える意味論的なバイアスが生じ、最適とは言えない結果が生じる可能性があります。
我々は、LLM で公平なステアリング表現を取得するために因果分析と敵対的学習を組み込んだ新しいフレームワークである LLMGuardrail を提案します。
LLMGuardrail は、バイアスの交絡的な影響を体系的に特定してブロックし、バイアスのないステアリング表現の抽出を可能にします。
さらに、生成された出力と望ましい方向との間の調整に関する洞察を提供する説明可能なコンポーネントが含まれています。
実験では、バイアスを軽減しながら LLM を望ましい属性に向けて誘導する LLMGuardrail の有効性を実証しています。
私たちの取り組みは、望ましい特性に合わせた安全で信頼性の高い LLM の開発に貢献します。

要約(オリジナル)

Large Language Models (LLMs) have shown impressive performance in natural language tasks, but their outputs can exhibit undesirable attributes or biases. Existing methods for steering LLMs toward desired attributes often assume unbiased representations and rely solely on steering prompts. However, the representations learned from pre-training can introduce semantic biases that influence the steering process, leading to suboptimal results. We propose LLMGuardrail, a novel framework that incorporates causal analysis and adversarial learning to obtain unbiased steering representations in LLMs. LLMGuardrail systematically identifies and blocks the confounding effects of biases, enabling the extraction of unbiased steering representations. Additionally, it includes an explainable component that provides insights into the alignment between the generated output and the desired direction. Experiments demonstrate LLMGuardrail’s effectiveness in steering LLMs toward desired attributes while mitigating biases. Our work contributes to the development of safe and reliable LLMs that align with desired attributes.

arxiv情報

著者 Zhixuan Chu,Yan Wang,Longfei Li,Zhibo Wang,Zhan Qin,Kui Ren
発行日 2024-09-04 13:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク