DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion

要約

言語モデル (LM) は幅広いタスクにわたって目覚ましい成果を上げていますが、有害な出力を生成する傾向については依然として大きな懸念が払われています。
微調整モデルや補助モデルを含む現在のソリューションは、通常、大量のメモリと計算リソースを必要とするため、大規模言語モデル (LLM) での展開には実用的ではありません。
この論文では、低リソースと時間コストで活性化空間内の LM の内部表現を変更することで LM を無毒化する新しい方法である DeStein を提案します。
具体的には、自己誘導ステアリングペアを活用して、活性化空間での算術演算を通じて解毒ベクトルを特定します。
推論中に、解毒ベクトルと元の表現をブレンドすることによって解毒が達成されます。
経験的結果は、私たちの方法が一般的な解毒指標に関して以前の最先端のアプローチを大幅に上回り、同時に満足のいく生成品質と多様性を維持していることを示しています。
さらに、この方法を複数の LLM に拡張し、その実用性と拡張性を実証します。
警告: 一部のモデル出力例には、非常に攻撃的または不快なテキストが含まれています。

要約(オリジナル)

Despite the remarkable achievements of language models (LMs) across a broad spectrum of tasks, their propensity for generating toxic outputs remains a prevalent concern. Current solutions involving fine-tuning or auxiliary models usually require extensive memory and computational resources, rendering them less practical for deployment in large language models (LLMs). In this paper, we propose DeStein, a novel method that detoxififies LMs by altering their internal representations in the activation space with lower resource and time cost. Specifically, we leverage self-induced steering pairs to identify detoxification vectors through arithmetic operations in the activation space. During inference, detoxification is achieved by blending the detoxification vectors with the original representations. Empirical results demonstrate that our method significantly outperforms previous state-of-the-art approaches on popular detoxification metrics, while also maintaining satisfactory generation quality and diversity. Furthermore, we extend our method to multiple LLMs, demonstrating its practicality and scalability. Warning: some example model outputs contain highly offensive or disturbing text.

arxiv情報

著者 Yu Li,Zhihua Wei,Han Jiang,Chuanyang Gong
発行日 2024-04-16 11:07:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク