Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents

要約

オープンドメイン対話システムの最近の進歩は、高品質の大規模言語モデル (LLM) とさまざまな効果的なトレーニング方法論の出現によって推進されています。
それにもかかわらず、これらのモデル内に毒性が存在すると、ユーザー エクスペリエンスが低下する可能性がある重大な課題が生じます。
この研究では、敵対的 DPO (ADPO) と呼ばれる、直接優先最適化 (DPO) を改良した革新的なトレーニング アルゴリズムを導入します。
ADPO アルゴリズムは、より高い確率の分布を優先される応答に割り当て、より低い確率の分布を安全でない応答に割り当てるようにモデルをトレーニングするように設計されています。これらの分布は有害な制御トークンを使用して自己生成されます。
ADPO がパフォーマンスの低下を最小限に抑えながら、有害な会話に対するモデルの回復力を強化することを実証します。
さらに、ADPO は従来の DPO と比較してより安定したトレーニング手順を提供することを示します。
私たちの知る限り、これは、有害なデータを生成モデルに直接組み込むことで、安全な対話データを人為的に作成する必要性を減らす DPO アルゴリズムの最初の適応です。

要約(オリジナル)

Recent advancements in open-domain dialogue systems have been propelled by the emergence of high-quality large language models (LLMs) and various effective training methodologies. Nevertheless, the presence of toxicity within these models presents a significant challenge that can potentially diminish the user experience. In this study, we introduce an innovative training algorithm, an improvement upon direct preference optimization (DPO), called adversarial DPO (ADPO). The ADPO algorithm is designed to train models to assign higher probability distributions to preferred responses and lower distributions to unsafe responses, which are self-generated using the toxic control token. We demonstrate that ADPO enhances the model’s resilience against harmful conversations while minimizing performance degradation. Furthermore, we illustrate that ADPO offers a more stable training procedure compared to the traditional DPO. To the best of our knowledge, this is the first adaptation of the DPO algorithm that directly incorporates harmful data into the generative model, thereby reducing the need to artificially create safe dialogue data.

arxiv情報

著者 San Kim,Gary Geunbae Lee
発行日 2024-05-21 16:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク