GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models

要約

警告: この文書には攻撃的または気分を害する可能性のある内容が含まれています。
さまざまなアプリケーションで、元の形式と微調整された適応の両方で、大規模言語モデル (LLM) の使用が大幅に増加しています。
その結果、LLM は人気を博し、大規模なユーザー コミュニティで広く採用されています。
ただし、LLM に関する懸念の 1 つは、社会的に偏ったコンテンツが生成される可能性があることです。
既存の評価方法には多くの制約があり、その結果の解釈可能性には限界があります。
この研究では、LLM (例: GPT-4 \cite{openai2023gpt4}) の高いパフォーマンスを活用してモデルのバイアスを評価する、GPTBIAS という名前のバイアス評価フレームワークを提案します。
また、モデルのバイアスを評価するために特別に設計された、バイアス攻撃命令と呼ばれるプロンプトも導入します。
バイアス評価の信頼性と解釈可能性を高めるために、私たちのフレームワークはバイアス スコアを提供するだけでなく、バ​​イアスの種類、影響を受ける人口統計、キーワード、バイアスの背後にある理由、改善の提案などの詳細情報も提供します。
私たちは、バイアス評価フレームワークの有効性と有用性を実証するために広範な実験を実施しています。

要約(オリジナル)

Warning: This paper contains content that may be offensive or upsetting. There has been a significant increase in the usage of large language models (LLMs) in various applications, both in their original form and through fine-tuned adaptations. As a result, LLMs have gained popularity and are being widely adopted by a large user community. However, one of the concerns with LLMs is the potential generation of socially biased content. The existing evaluation methods have many constraints, and their results exhibit a limited degree of interpretability. In this work, we propose a bias evaluation framework named GPTBIAS that leverages the high performance of LLMs (e.g., GPT-4 \cite{openai2023gpt4}) to assess bias in models. We also introduce prompts called Bias Attack Instructions, which are specifically designed for evaluating model bias. To enhance the credibility and interpretability of bias evaluation, our framework not only provides a bias score but also offers detailed information, including bias types, affected demographics, keywords, reasons behind the biases, and suggestions for improvement. We conduct extensive experiments to demonstrate the effectiveness and usability of our bias evaluation framework.

arxiv情報

著者 Jiaxu Zhao,Meng Fang,Shirui Pan,Wenpeng Yin,Mykola Pechenizkiy
発行日 2023-12-11 12:02:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク