Expert-Guided Extinction of Toxic Tokens for Debiased Generation

要約

大規模言語モデル (LLM) は、特に有毒なプロンプトを使用して推論する場合、世代間に社会的バイアスを引き起こす可能性があります。
生成時に機密属性を制御すると、データの分散、一般化可能性、効率性の面で課題が発生します。
具体的には、微調整と検索には広範な不偏コーパスが必要ですが、直接プロンプトには複数回の思考で出力を修正するための細心の注意を払って厳選された指示が必要ですが、記憶と推論の待ち時間に課題が生じます。
この研究では、前述の要件を満たさずに LLM の望ましくない有害な出力を排除するために、専門家が指導する偏りのない生成のための有毒トークンの消去 (EXPOSED) を提案します。
EXPOSED は、潜在的に危険なトークンを暴露し、引き出すための豊富な有害なコーパスに基づいてバイアス除去エキスパートを構築します。
次に、LLM への出力を処理し、有害なトークンを抑制および軽減することで公平な分配を構築します。
EXPOSED は、3 つの LLM ファミリにわたる公平性ベンチマークで評価されます。
広範な実験により、提案された EXPOSED は、他のベースラインと比較して、公平性と生成パフォーマンスのバランスをとりながら、潜在的な社会的偏見を大幅に軽減することが実証されました。

要約(オリジナル)

Large language models (LLMs) can elicit social bias during generations, especially when inference with toxic prompts. Controlling the sensitive attributes in generation encounters challenges in data distribution, generalizability, and efficiency. Specifically, fine-tuning and retrieval demand extensive unbiased corpus, while direct prompting requires meticulously curated instructions for correcting the output in multiple rounds of thoughts but poses challenges on memory and inference latency. In this work, we propose the Expert-Guided Extinction of Toxic Tokens for Debiased Generation (EXPOSED) to eliminate the undesired harmful outputs for LLMs without the aforementioned requirements. EXPOSED constructs a debiasing expert based on the abundant toxic corpus to expose and elicit the potentially dangerous tokens. It then processes the output to the LLMs and constructs a fair distribution by suppressing and attenuating the toxic tokens. EXPOSED is evaluated on fairness benchmarks over three LLM families. Extensive experiments demonstrate that compared with other baselines, the proposed EXPOSED significantly reduces the potential social bias while balancing fairness and generation performance.

arxiv情報

著者 Xueyao Sun,Kaize Shi,Haoran Tang,Guandong Xu,Qing Li
発行日 2024-05-29 17:26:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク