UniDetox: Universal Detoxification of Large Language Models via Dataset Distillation

要約

さまざまな大規模な言語モデル(LLM)にわたって毒性を緩和するために設計された普遍的に適用可能な方法であるUnidetoxを提示します。
以前の解毒方法は通常、モデル固有であり、個々のモデルまたはモデルファミリのみに対処し、解毒の有効性と言語モデリングのパフォーマンスとのトレードオフのため、慎重なハイパーパラメーターチューニングが必要です。
対照的に、Unidetoxは、個別のモデル固有のチューニングを必要とせずに、広範囲のLLMに普遍的に適用できる解毒技術を提供します。
具体的には、コントラストデコードを使用した解毒のための斬新で効率的なデータセット蒸留技術を提案します。
このアプローチは、合成テキストデータの形で解毒表現を蒸留し、蒸留テキストで微調整することでLLMの普遍的な解毒を可能にします。
我々の実験は、GPT-2から蒸留された解毒テキストが、OPT、Falcon、およびLlama-2を含むより大きなモデルを効果的に解毒できることを示しています。
さらに、単一のハイパーパラメーター構成を異なるモデルにシームレスに適用できるため、Unidetoxは各モデルの個別のハイパーパラメーターチューニングの必要性を排除します。
さらに、解毒テキストの分析により、政治的に偏ったコンテンツの減少が明らかになり、LLMの効果的な解毒に必要な属性に関する洞察が得られます。

要約(オリジナル)

We present UniDetox, a universally applicable method designed to mitigate toxicity across various large language models (LLMs). Previous detoxification methods are typically model-specific, addressing only individual models or model families, and require careful hyperparameter tuning due to the trade-off between detoxification efficacy and language modeling performance. In contrast, UniDetox provides a detoxification technique that can be universally applied to a wide range of LLMs without the need for separate model-specific tuning. Specifically, we propose a novel and efficient dataset distillation technique for detoxification using contrastive decoding. This approach distills detoxifying representations in the form of synthetic text data, enabling universal detoxification of any LLM through fine-tuning with the distilled text. Our experiments demonstrate that the detoxifying text distilled from GPT-2 can effectively detoxify larger models, including OPT, Falcon, and LLaMA-2. Furthermore, UniDetox eliminates the need for separate hyperparameter tuning for each model, as a single hyperparameter configuration can be seamlessly applied across different models. Additionally, analysis of the detoxifying text reveals a reduction in politically biased content, providing insights into the attributes necessary for effective detoxification of LLMs.

arxiv情報

著者 Huimin Lu,Masaru Isonuma,Junichiro Mori,Ichiro Sakata
発行日 2025-04-29 07:40:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク