Learn What NOT to Learn: Towards Generative Safety in Chatbots

要約

タイトル:チャットボットにおける生成的安全性のための学習:何を学習しないかを学ぶ

要約:
– オープンドメインで生成的な会話モデルは、Webベースのソーシャルデータに訓練されているため、安全でないコンテンツを生成しやすい。
– 従来の対処法は、会話の流れを妨げる、未知の有害入力文脈に対して一般化が制限される、安全性のために対話の品質を犠牲にするといった欠点がある。
– 本論文では、異なる手法で、学習のためのポジティブとネガティブな信号を、それぞれ安全な言語分布と安全でない言語分布から自動的に取得することで一般化を強化する、新しい枠組み「LOT(Learn NOT to)」を提案する。
– LOTフレームワークは、会話の流れを維持しながら、生成を有害なサブスペースから安全なサブスペースに向けるために発散を利用する。
– 我々のアプローチは、デコーディングの際にメモリと時間の効率が良く、満足度と流暢性を維持しながら、有害性を最大4倍低減することができる。
– 実験結果から、LOTは、ベースラインモデルに比べて、4~6倍の高い満足度と流暢性を達成しながら、有害性を最大4倍低減することができることが示された。
– 人間の評価によって、我々の結論はさらに裏付けられた。

要約(オリジナル)

Conversational models that are generative and open-domain are particularly susceptible to generating unsafe content since they are trained on web-based social data. Prior approaches to mitigating this issue have drawbacks, such as disrupting the flow of conversation, limited generalization to unseen toxic input contexts, and sacrificing the quality of the dialogue for the sake of safety. In this paper, we present a novel framework, named ‘LOT’ (Learn NOT to), that employs a contrastive loss to enhance generalization by learning from both positive and negative training signals. Our approach differs from the standard contrastive learning framework in that it automatically obtains positive and negative signals from the safe and unsafe language distributions that have been learned beforehand. The LOT framework utilizes divergence to steer the generations away from the unsafe subspace and towards the safe subspace while sustaining the flow of conversation. Our approach is memory and time-efficient during decoding and effectively reduces toxicity while preserving engagingness and fluency. Empirical results indicate that LOT reduces toxicity by up to four-fold while achieving four to six-fold higher rates of engagingness and fluency compared to baseline models. Our findings are further corroborated by human evaluation.

arxiv情報

著者 Leila Khalatbari,Yejin Bang,Dan Su,Willy Chung,Saeed Ghadimi,Hossein Sameti,Pascale Fung
発行日 2023-04-21 18:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク