A Benchmark for Understanding Dialogue Safety in Mental Health Support

要約

対話の安全性は、オープンドメインのヒューマンマシンインタラクションにおいて依然として広範な課題です。
既存のアプローチは、明らかに有害な反応を検出するための独特の対話安全分類法とデータセットを提案しています。
ただし、これらの分類法は、メンタルヘルス支援における対応の安全性の分析には適していない可能性があります。
現実世界のインタラクションでは、カジュアルな会話で許容されると考えられるモデル応答は、メンタルヘルスのサポートを求めるユーザーにわずかなプラスの影響を与える可能性があります。
これらの制限に対処するために、この論文は、助けを求める人へのプラスの影響を優先する、理論的かつ事実に基づいた分類法を開発することを目的としています。
さらに、さらなる調査を容易にするために、各対話セッションのきめの細かいラベルを備えたベンチマーク コーパスを作成します。
BERTベース、RoBERTa-large、ChatGPTなどの一般的な言語モデルを使用してデータセットを分析し、メンタルヘルスサポートのコンテキスト内で安全でない反応を検出して理解します。
私たちの研究では、ChatGPT はゼロショットおよび少数ショットのパラダイムで詳細な安全定義を持つ安全カテゴリを検出するのに苦労する一方、微調整されたモデルの方がより適切であることが判明したことが明らかになりました。
開発されたデータセットと調査結果は、メンタルヘルスサポートにおける対話の安全性に関する研究を進めるための貴重なベンチマークとして機能し、現実世界のアプリケーションにおける会話エージェントの設計と展開の改善に重要な意味を持ちます。
コードとデータは https://github.com/qiuhuachuan/DialogueSafety で公開しています。

要約(オリジナル)

Dialogue safety remains a pervasive challenge in open-domain human-machine interaction. Existing approaches propose distinctive dialogue safety taxonomies and datasets for detecting explicitly harmful responses. However, these taxonomies may not be suitable for analyzing response safety in mental health support. In real-world interactions, a model response deemed acceptable in casual conversations might have a negligible positive impact on users seeking mental health support. To address these limitations, this paper aims to develop a theoretically and factually grounded taxonomy that prioritizes the positive impact on help-seekers. Additionally, we create a benchmark corpus with fine-grained labels for each dialogue session to facilitate further research. We analyze the dataset using popular language models, including BERT-base, RoBERTa-large, and ChatGPT, to detect and understand unsafe responses within the context of mental health support. Our study reveals that ChatGPT struggles to detect safety categories with detailed safety definitions in a zero- and few-shot paradigm, whereas the fine-tuned model proves to be more suitable. The developed dataset and findings serve as valuable benchmarks for advancing research on dialogue safety in mental health support, with significant implications for improving the design and deployment of conversation agents in real-world applications. We release our code and data here: https://github.com/qiuhuachuan/DialogueSafety.

arxiv情報

著者 Huachuan Qiu,Tong Zhao,Anqi Li,Shuai Zhang,Hongliang He,Zhenzhong Lan
発行日 2023-07-31 07:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク