Toxicity in ChatGPT: Analyzing Persona-assigned Language Models

要約

【タイトル】
ChatGPTにおける毒性: パーソナルアサインド言語モデルの分析

【要約】
– 大規模言語モデル(LLMs)は、健康、治療、教育、カスタマーサービスなど多くのサービスで採用されるなど、自然言語処理(NLP)のコミュニティを超えて、信じられないほどの機能を示しました
– チャットボットを利用する学生や患者など、重要な情報ニーズを持つユーザーが含まれるため、これらのシステムの安全性は非常に重要です。
– そのため、LLMsの機能と制限を明確に理解することが必要です。このため、人気のある対話型LLMであるChatGPTの約50万の生成物の毒性を系統的に評価しました。
– ChatGPTのシステムパラメータを設定することにより、Muhammad Aliなどのパーソナを割り当てることで、生成物の毒性が大幅に増加することを発見しました。 ChatGPTに割り当てられたパーソナに応じて、毒性は最大6倍増加し、不正確なステレオタイプ、有害な対話、傷つける意見などが含まれるようになる。
– これは、パーソナにとって名誉毀損となる可能性があり、気付かないユーザーにとって有害になります。
– さらに、特定のエンティティ(例:ある種の人種)が、割り当てられたパーソナに関係なく他のものに比べて3倍多くターゲットされるという関心深いパターンを発見しました。これはモデルの持つ固有の差別的バイアスを反映しています。
– これらの発見が、より良いテクニックを開発し、堅牢で安全で信頼できるAIシステムにつながるように、AIコミュニティをよりよく考えさせることになることを望んでいます。

要約(オリジナル)

Large language models (LLMs) have shown incredible capabilities and transcended the natural language processing (NLP) community, with adoption throughout many services like healthcare, therapy, education, and customer service. Since users include people with critical information needs like students or patients engaging with chatbots, the safety of these systems is of prime importance. Therefore, a clear understanding of the capabilities and limitations of LLMs is necessary. To this end, we systematically evaluate toxicity in over half a million generations of ChatGPT, a popular dialogue-based LLM. We find that setting the system parameter of ChatGPT by assigning it a persona, say that of the boxer Muhammad Ali, significantly increases the toxicity of generations. Depending on the persona assigned to ChatGPT, its toxicity can increase up to 6x, with outputs engaging in incorrect stereotypes, harmful dialogue, and hurtful opinions. This may be potentially defamatory to the persona and harmful to an unsuspecting user. Furthermore, we find concerning patterns where specific entities (e.g., certain races) are targeted more than others (3x more) irrespective of the assigned persona, that reflect inherent discriminatory biases in the model. We hope that our findings inspire the broader AI community to rethink the efficacy of current safety guardrails and develop better techniques that lead to robust, safe, and trustworthy AI systems.

arxiv情報

著者 Ameet Deshpande,Vishvak Murahari,Tanmay Rajpurohit,Ashwin Kalyan,Karthik Narasimhan
発行日 2023-04-11 16:53:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク