Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona Biases in Dialogue Systems

要約

大規模言語モデルの最近の進歩により、会話の中で一般的または特定の人口統計上のペルソナを模倣するなど、自由形式の指示に従うことができるようになりました。
一般的なペルソナは「アジア人」などの人口統計グループを表すように定義されますが、特定のペルソナは「ユミ」などの特定の人気のあるアジア人の名前の形をとる場合があります。
ペルソナの導入は、対話システムをより魅力的で親しみやすいものにしてユーザーエクスペリエンスを豊かにする一方で、モデル応答内の社会的バイアスを悪化させることで潜在的なリスクの影を落とし、それによってユーザーとの対話を通じて社会的危害を引き起こすことになります。
この論文では、「ペルソナ バイアス」を体系的に研究します。これは、対話モデルが採用するペルソナに依存する、対話モデルの有害な行動の感度であると定義されます。
私たちは、ペルソナバイアスを有害な表現のバイアスと有害な合意のバイアスに分類し、攻撃性、有害な継続、敬意、固定観念の一致、有害な合意の5つの側面でペルソナバイアスを測定するための包括的な評価フレームワークを確立します。
さらに、一般的なモデル ペルソナと特定のモデル ペルソナの両方を含む、体系的に構築されたペルソナ データセットである UNIVERSALPERSONA を実験して、ペルソナのバイアスを調査することを提案します。
Blender、ChatGPT、Alpaca、Vicuna を含む 4 つの異なるモデルのベンチマークを通じて、私たちの研究は対話システムにおける重大なペルソナのバイアスを明らかにしました。
私たちの調査結果は、安全なアプリケーションを確保するために、対話エージェントでのペルソナの使用を再考する差し迫った必要性も強調しています。

要約(オリジナル)

Recent advancements in Large Language Models empower them to follow freeform instructions, including imitating generic or specific demographic personas in conversations. We define generic personas to represent demographic groups, such as ‘an Asian person’, whereas specific personas may take the form of specific popular Asian names like ‘Yumi’. While the adoption of personas enriches user experiences by making dialogue systems more engaging and approachable, it also casts a shadow of potential risk by exacerbating social biases within model responses, thereby causing societal harm through interactions with users. In this paper, we systematically study ‘persona biases’, which we define to be the sensitivity of dialogue models’ harmful behaviors contingent upon the personas they adopt. We categorize persona biases into biases in harmful expression and harmful agreement, and establish a comprehensive evaluation framework to measure persona biases in five aspects: Offensiveness, Toxic Continuation, Regard, Stereotype Agreement, and Toxic Agreement. Additionally, we propose to investigate persona biases by experimenting with UNIVERSALPERSONA, a systematically constructed persona dataset encompassing various types of both generic and specific model personas. Through benchmarking on four different models — including Blender, ChatGPT, Alpaca, and Vicuna — our study uncovers significant persona biases in dialogue systems. Our findings also underscore the pressing need to revisit the use of personas in dialogue agents to ensure safe application.

arxiv情報

著者 Yixin Wan,Jieyu Zhao,Aman Chadha,Nanyun Peng,Kai-Wei Chang
発行日 2023-10-23 17:18:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク