Can Language Model Moderators Improve the Health of Online Discourse?

要約

オンライン・コミュニティの会話型モデレーションは、建設的な環境のために礼節を保つことが重要であるが、規模を拡大するのは困難であり、モデレーターにとって有害である。洗練された自然言語生成モジュールが人間のモデレーターを支援するための乗数として組み込まれることは、魅力的な展望であるが、適切な評価アプローチは今のところ見つかっていない。本稿では、モデレーションに関する文献に基づき、会話によるモデレーションの有効性を体系的に定義し、現実的かつ安全な評価を行うための設計基準を確立する。そして、人間の介入に依存しないモデルのモデレーション能力を評価するための包括的な評価フレームワークを提案する。その結果、社会科学からの知見を取り入れた適切なプロンプトを持つモデルは、有害な行動に関する具体的で公正なフィードバックを提供することができるが、尊敬と協力のレベルを高めるためにユーザーに影響を与えることは困難であることを発見した。

要約(オリジナル)

Conversational moderation of online communities is crucial to maintaining civility for a constructive environment, but it is challenging to scale and harmful to moderators. The inclusion of sophisticated natural language generation modules as a force multiplier to aid human moderators is a tantalizing prospect, but adequate evaluation approaches have so far been elusive. In this paper, we establish a systematic definition of conversational moderation effectiveness grounded on moderation literature and establish design criteria for conducting realistic yet safe evaluation. We then propose a comprehensive evaluation framework to assess models’ moderation capabilities independently of human intervention. With our framework, we conduct the first known study of language models as conversational moderators, finding that appropriately prompted models that incorporate insights from social science can provide specific and fair feedback on toxic behavior but struggle to influence users to increase their levels of respect and cooperation.

arxiv情報

著者 Hyundong Cho,Shuai Liu,Taiwei Shi,Darpan Jain,Basem Rizk,Yuyang Huang,Zixun Lu,Nuan Wen,Jonathan Gratch,Emilio Ferrara,Jonathan May
発行日 2024-05-06 17:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク