Learn What NOT to Learn: Towards Generative Safety in Chatbots

要約

タイトル:チャットボットにおける安全性向上のための「学習しないで欲しいことを学ぶ」手法

要約:
– オープンドメインかつ生成モデルの会話は、webベースのソーシャルデータをもとにトレーニングされているため、安全ではない内容を生成する可能性が高い。
– これを緩和するための従来のアプローチには、会話の流れを妨げる、未知の有毒入力コンテキストに対して限定的な汎化、安全性のための対話の質の犠牲などの欠点がある。
– 本論文では、肯定的なトレーニングシグナルと否定的なトレーニングシグナルの両方から学習する対照的な損失を使用する新しいフレームワーク「LOT」を提案する。
– 我々のアプローチは、以前に学習された安全および安全でない言語分布から自動的に肯定的なサインと否定的なサインを取得するため、通常の対照的な学習フレームワークと異なる。
– LOTフレームワークは、分布の発散を利用して、生成物を危険なサブスペースから安全なサブスペースに誘導しながら、会話の流れを維持する。
– アプローチは、デコーディング中にメモリや時間の効率的であり、有害物質を効果的に減少させながら、魅力的さと流暢さを保持する。
– 結果は、LOTが、トキシシティを最大4倍低減し、基礎モデルと比較して4-6倍高い魅力的さと流暢性を達成することを示している。我々の調査結果は、人間の評価によっても裏付けられている。

要約(オリジナル)

Conversational models that are generative and open-domain are particularly susceptible to generating unsafe content since they are trained on web-based social data. Prior approaches to mitigating this issue have drawbacks, such as disrupting the flow of conversation, limited generalization to unseen toxic input contexts, and sacrificing the quality of the dialogue for the sake of safety. In this paper, we present a novel framework, named ‘LOT’ (Learn NOT to), that employs a contrastive loss to enhance generalization by learning from both positive and negative training signals. Our approach differs from the standard contrastive learning framework in that it automatically obtains positive and negative signals from the safe and unsafe language distributions that have been learned beforehand. The LOT framework utilizes divergence to steer the generations away from the unsafe subspace and towards the safe subspace while sustaining the flow of conversation. Our approach is memory and time-efficient during decoding and effectively reduces toxicity while preserving engagingness and fluency. Empirical results indicate that LOT reduces toxicity by up to four-fold while achieving four to six-fold higher rates of engagingness and fluency compared to baseline models. Our findings are further corroborated by human evaluation.

arxiv情報

著者 Leila Khalatbari,Yejin Bang,Dan Su,Willy Chung,Saeed Ghadimi,Hossein Sameti,Pascale Fung
発行日 2023-04-25 08:16:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク