Improving Dialog Safety using Socially Aware Contrastive Learning

要約

最先端の会話型 AI システムは、安全でない、有害な、非倫理的、または危険なコンテンツを生成する潜在的なリスクにより懸念を引き起こしています。
これまでの研究では、特別に設計された危険なコンテンツに効果的に対応するための適切な社会的パラダイムを会話型エージェントに教えるためのデータセットが開発されました。
しかし、これらの敵対的なデータセットでトレーニングされたモデルは、会話の中で自然に現れる、または何気ない文脈で不適切な反応を引き起こす微妙な危険な状況を認識するのに依然として苦労しています。
この問題の程度を理解するために、私たちは敵対的対話とカジュアルな対話の両方の文脈における向社会性を研究し、安全でないコンテンツを生成する傾向の観点から汎用言語モデルの応答品質を監査します。
我々は、社会的に認識されたnペアのコントラスト損失を使用してこれらの問題に対処するための2段階の微調整プロセスを提案します。
続いて、Moral Integrity Corpus (MIC) や ProsocialDialog などのデータセットを活用して、向社会的行動を統合する基本モデルをトレーニングします。
いくつかの対話データセットに関する実験結果は、社会的に適切な応答を生成する際の私たちのアプローチの有効性を示しています。

要約(オリジナル)

State-of-the-art conversational AI systems raise concerns due to their potential risks of generating unsafe, toxic, unethical, or dangerous content. Previous works have developed datasets to teach conversational agents the appropriate social paradigms to respond effectively to specifically designed hazardous content. However, models trained on these adversarial datasets still struggle to recognize subtle unsafe situations that appear naturally in conversations or introduce an inappropriate response in a casual context. To understand the extent of this problem, we study prosociality in both adversarial and casual dialog contexts and audit the response quality of general-purpose language models in terms of propensity to produce unsafe content. We propose a dual-step fine-tuning process to address these issues using a socially aware n-pair contrastive loss. Subsequently, we train a base model that integrates prosocial behavior by leveraging datasets like Moral Integrity Corpus (MIC) and ProsocialDialog. Experimental results on several dialog datasets demonstrate the effectiveness of our approach in generating socially appropriate responses.

arxiv情報

著者 Souvik Das,Rohini K. Srihari
発行日 2024-02-01 09:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク