Inducing Group Fairness in LLM-Based Decisions

要約

Prompting Large Language Model (LLM) は、テキスト データを分類するための新しくて興味深い手段を作成しました。
グループの公平性の評価と修正は、分類子の公平性に関する文献でよく研究されている問題ですが、一部の古典的なアプローチ (例: 正則化) は引き継がれず、いくつかの新しい機会 (例: プロンプトベースの修正) が生じます。
私たちは、毒性分類タスクにおける LLM ベースの分類器の公平性を測定し、プロンプトベースの分類器が不公平な決定につながる可能性があることを経験的に示します。
いくつかの修復手法を紹介し、その公平性とパフォーマンスのトレードオフをベンチマークします。
私たちの研究が、LLM ベースの分類器におけるグループの公平性に関するさらなる研究を促進することを願っています。

要約(オリジナル)

Prompting Large Language Models (LLMs) has created new and interesting means for classifying textual data. While evaluating and remediating group fairness is a well-studied problem in classifier fairness literature, some classical approaches (e.g., regularization) do not carry over, and some new opportunities arise (e.g., prompt-based remediation). We measure fairness of LLM-based classifiers on a toxicity classification task, and empirically show that prompt-based classifiers may lead to unfair decisions. We introduce several remediation techniques and benchmark their fairness and performance trade-offs. We hope our work encourages more research on group fairness in LLM-based classifiers.

arxiv情報

著者 James Atwood,Preethi Lahoti,Ananth Balashankar,Flavien Prost,Ahmad Beirami
発行日 2024-06-24 15:45:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク