Detoxify Language Model Step-by-Step

要約

LLM の無毒化は、モデルが生成機能を維持しながら有害なコンテンツの生成を回避する必要があるため、困難です。
世代の安全性を確保するために、これまでの解毒手法では、データ分布を変更したり、さまざまな側面から世代を単一ステップで制約したりすることでモデルを解毒していました。
ただし、言語モデルは有害なプロンプトに沿って生成される傾向があるのに対し、解毒方法は反対方向に機能するため、これらのアプローチは、LLM の生成品質、たとえば談話の一貫性や意味論的一貫性に劇的な影響を与えるでしょう。
このような矛盾に対処するために、解毒プロセスをさまざまなサブステップに分解します。解毒は入力段階に集中し、その後の継続的な生成は毒性のないプロンプトに基づいています。
さらに、上記のサブステップを秩序だった方法で接続する解毒チェーンを設計することで、LLM の強力な推論能力も調整され、LLM がテキストを段階的に解毒できるようになります。
2 つのベンチマークでの自動評価と人間による評価により、Detox-Chain を使用したトレーニングにより、1B から 33B までの 6 つの LLM が大幅な解毒と生成の向上を達成できることが明らかになりました。
コードとデータは https://github.com/CODINNLG/Detox-CoT で入手できます。
警告: 論文内の例には、検閲されていない不快なコンテンツが含まれている可能性があります。

要約(オリジナル)

Detoxification for LLMs is challenging since it requires models to avoid generating harmful content while maintaining the generation capability. To ensure the safety of generations, previous detoxification methods detoxify the models by changing the data distributions or constraining the generations from different aspects in a single-step manner. However, these approaches will dramatically affect the generation quality of LLMs, e.g., discourse coherence and semantic consistency, since language models tend to generate along the toxic prompt while detoxification methods work in the opposite direction. To handle such a conflict, we decompose the detoxification process into different sub-steps, where the detoxification is concentrated in the input stage and the subsequent continual generation is based on the non-toxic prompt. Besides, we also calibrate the strong reasoning ability of LLMs by designing a Detox-Chain to connect the above sub-steps in an orderly manner, which allows LLMs to detoxify the text step-by-step. Automatic and human evaluation on two benchmarks reveals that by training with Detox-Chain, six LLMs scaling from 1B to 33B can obtain significant detoxification and generation improvement. Our code and data are available at https://github.com/CODINNLG/Detox-CoT. Warning: examples in the paper may contain uncensored offensive content.

arxiv情報

著者 Zecheng Tang,Keyan Zhou,Pinzheng Wang,Yuyang Ding,Juntao Li,Minzhang
発行日 2023-08-16 11:50:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク