Inducing Group Fairness in Prompt-Based Language Model Decisions

要約

分類子は、有害なコンテンツの検出から年齢に応じたコンテンツのフィルタリングまで、ポリシーを適用するために業界全体で使用されています。
これらの分類子は重要な機能を果たしますが、ユーザーに対する不公平な偏見を最小限に抑える方法で構築されることも重要です。
このような公平性に関する考慮事項の 1 つはグループ公平性と呼ばれ、ユーザーの異なる部分母集団が平等な扱いを受けることを望んでいます。
これは、「古典的な」分類器のコンテキストでよく研究された問題です。
ただし、プロンプトベースの言語モデル (LM) 意思決定の出現により、テキストベースの分類タスクを解決する新たな機会が生まれましたが、これらの新しい分類子の公平性の特性はまだ十分に理解されていません。
さらに、「修復ツールキット」は LM ベースの意思決定者にとって不完全であり、分類器のパフォーマンスを維持しながら意思決定者グループの公平性を向上させる方法についてはほとんど理解されていません。
この作業は、そのツールボックスにさらに多くのツールを追加することを目的としています。
古典的な分類子の公平性からプロンプトベースの分類子空間まで、既存の効果的なアプローチの適応を導入します。
また、即時ベースの意思決定者の新しい構造を活用し、即時レベルで運用する簡単な方法も考案します。
これらのアプローチを実際のデータで経験的に比較します。
私たちの結果は、古典的な分類器に効果的なアプローチの適応が、LM ベースの分類器環境でも依然として効果的であることを示唆しています。
ただし、プロンプトベースの修復方法 (および LM 構造を利用する他の修復方法) をさらに検討する余地があります。

要約(オリジナル)

Classifiers are used throughout industry to enforce policies, ranging from the detection of toxic content to age-appropriate content filtering. While these classifiers serve important functions, it is also essential that they are built in ways that minimize unfair biases for users. One such fairness consideration is called group fairness, which desires that different sub-population of users receive equal treatment. This is a well-studied problem in the context of ‘classical’ classifiers. However, the emergence of prompt-based language model (LM) decision making has created new opportunities to solve text-based classification tasks, and the fairness properties of these new classifiers are not yet well understood. Further, the `remediation toolkit’ is incomplete for LM-based decision makers and little is understood about how to improve decision maker group fairness while maintaining classifier performance. This work sets out to add more tools to that toolbox. We introduce adaptations of existing effective approaches from the classical classifier fairness to the prompt-based classifier space. We also devise simple methods that take advantage of the new structure of prompt-based decision makers and operate at the prompt level. We compare these approaches empirically on real data. Our results suggest that adaptations of approaches that are effective for classical classifiers remain effective in the LM-based classifier environment. However, there is room for further exploration of prompt-based remediation methods (and other remediation methods that take advantage of LM structure).

arxiv情報

著者 James Atwood,Nino Scherrer,Preethi Lahoti,Ananth Balashankar,Flavien Prost,Ahmad Beirami
発行日 2024-12-02 18:27:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク