Facilitating NSFW Text Detection in Open-Domain Dialogue Systems via Knowledge Distillation

要約

NSFW (Not Safe for Work) コンテンツは、対話のコンテキストにおいて、オープンドメインの対話システムのユーザーに重大な副作用をもたらす可能性があります。
しかし、会話のコンテキスト内で NSFW 言語、特に露骨な性的コンテンツを検出する研究は大幅に遅れています。
この問題に対処するために、NSFW 対話検出を目的とした対話監視データセットである CensorChat を導入します。
GPT-4 と ChatGPT を含む知識蒸留技術を活用するこのデータセットは、NSFW コンテンツ検出器を構築する費用対効果の高い手段を提供します。
このプロセスでは、実際のヒューマン マシン インタラクション データを収集し、それを 1 つの発話と 1 回の対話に分割し、チャットボットが最終的な発話を配信します。
ChatGPT は、ラベルのないデータに注釈を付けるために使用され、トレーニング セットとして機能します。
理論的検証とテスト セットは、ChatGPT と GPT-4 をアノテーターとして使用し、ラベル付けの不一致を解決するための自己批判戦略を使用して構築されます。
BERT モデルは、擬似ラベル付きデータのテキスト分類子として微調整され、そのパフォーマンスが評価されます。
この調査では、表現の自由を尊重しながら、デジタル会話におけるユーザーの安全と幸福を優先する AI システムの重要性が強調されています。
提案されたアプローチは、NSFW コンテンツの検出を進歩させるだけでなく、AI 主導の対話における進化するユーザー保護のニーズにも対応します。

要約(オリジナル)

NSFW (Not Safe for Work) content, in the context of a dialogue, can have severe side effects on users in open-domain dialogue systems. However, research on detecting NSFW language, especially sexually explicit content, within a dialogue context has significantly lagged behind. To address this issue, we introduce CensorChat, a dialogue monitoring dataset aimed at NSFW dialogue detection. Leveraging knowledge distillation techniques involving GPT-4 and ChatGPT, this dataset offers a cost-effective means of constructing NSFW content detectors. The process entails collecting real-life human-machine interaction data and breaking it down into single utterances and single-turn dialogues, with the chatbot delivering the final utterance. ChatGPT is employed to annotate unlabeled data, serving as a training set. Rationale validation and test sets are constructed using ChatGPT and GPT-4 as annotators, with a self-criticism strategy for resolving discrepancies in labeling. A BERT model is fine-tuned as a text classifier on pseudo-labeled data, and its performance is assessed. The study emphasizes the importance of AI systems prioritizing user safety and well-being in digital conversations while respecting freedom of expression. The proposed approach not only advances NSFW content detection but also aligns with evolving user protection needs in AI-driven dialogues.

arxiv情報

著者 Huachuan Qiu,Shuai Zhang,Hongliang He,Anqi Li,Zhenzhong Lan
発行日 2023-09-18 13:24:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク