Role-Play Paradox in Large Language Models: Reasoning Performance Gains and Ethical Dilemmas

要約

大規模言語モデル(LLM)におけるロールプレイは、多様な認知的視点をシミュレートすることで、文脈に即した質の高い応答を生成する能力を高める。しかし、我々の研究では、この手法には重大なリスクがあることを明らかにした。第一に、質問に基づいてモデルの役割を自動選択するために使用される手法であるオートチューニングは、モデルが中立的な役割を採用することを課せられている場合でも、有害な出力を生成する可能性があることを示す。第二に、役割の違いが、偏ったコンテンツや有害なコンテンツを生成する可能性にどのように影響するかを調査する。ステレオタイプで有害な質問を含むベンチマークでのテストを通じて、ロールプレイが一貫して偏ったアウトプットのリスクを増幅することを発見した。この結果は、LLMを繊細な文脈や利害の大きい文脈に導入する際には、役割シミュレーションとチューニングプロセスの両方を注意深く考慮する必要性を強調するものである。

要約(オリジナル)

Role-play in large language models (LLMs) enhances their ability to generate contextually relevant and high-quality responses by simulating diverse cognitive perspectives. However, our study identifies significant risks associated with this technique. First, we demonstrate that autotuning, a method used to auto-select models’ roles based on the question, can lead to the generation of harmful outputs, even when the model is tasked with adopting neutral roles. Second, we investigate how different roles affect the likelihood of generating biased or harmful content. Through testing on benchmarks containing stereotypical and harmful questions, we find that role-play consistently amplifies the risk of biased outputs. Our results underscore the need for careful consideration of both role simulation and tuning processes when deploying LLMs in sensitive or high-stakes contexts.

arxiv情報

著者 Jinman Zhao,Zifan Qian,Linbo Cao,Yining Wang,Yitian Ding,Yulan Hu,Zeyu Zhang,Zeyong Jin
発行日 2025-02-03 08:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク