A Survey on Fairness in Large Language Models

要約

大規模言語モデル (LLM) は、強力なパフォーマンスと開発の見通しを示しており、現実世界に広く導入されています。
ただし、LLM は未処理のトレーニング データから社会的バイアスを取得し、そのバイアスを下流のタスクに伝播する可能性があります。
不公平な LLM システムは、望ましくない社会的影響と潜在的な損害をもたらします。
このペーパーでは、LLM の公平性に関する関連研究の包括的なレビューを提供します。
研究戦略に対するパラメータの大きさとトレーニングパラダイムの影響を考慮して、既存の公平性研究を、事前トレーニングおよび微調整パラダイムの下で中規模のLLMを対象とするものと、プロンプトパラダイムの下で大規模なLLMを対象とするものに分けます。
まず、中規模LLMに対して、内因性バイアスと外因性バイアスの観点からそれぞれ評価指標とバイアス除去手法を導入します。
次に、大規模な LLM について、公平性評価、バイアスの理由、バイアスを軽減する方法など、最近の公平性研究を紹介します。
最後に、LLM における公平性の開発における課題と将来の方向性について議論し、洞察を提供します。

要約(オリジナル)

Large Language Models (LLMs) have shown powerful performance and development prospects and are widely deployed in the real world. However, LLMs can capture social biases from unprocessed training data and propagate the biases to downstream tasks. Unfair LLM systems have undesirable social impacts and potential harms. In this paper, we provide a comprehensive review of related research on fairness in LLMs. Considering the influence of parameter magnitude and training paradigm on research strategy, we divide existing fairness research into oriented to medium-sized LLMs under pre-training and fine-tuning paradigms and oriented to large-sized LLMs under prompting paradigms. First, for medium-sized LLMs, we introduce evaluation metrics and debiasing methods from the perspectives of intrinsic bias and extrinsic bias, respectively. Then, for large-sized LLMs, we introduce recent fairness research, including fairness evaluation, reasons for bias, and debiasing methods. Finally, we discuss and provide insight on the challenges and future directions for the development of fairness in LLMs.

arxiv情報

著者 Yingji Li,Mengnan Du,Rui Song,Xin Wang,Ying Wang
発行日 2024-02-21 13:52:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク