Human-Guided Fair Classification for Natural Language Processing

要約

テキスト分類子は、履歴書のスクリーニングやコンテンツのモデレーションなど、リスクの高いタスクで有望なアプリケーションを持っています。
これらの分類子は公平でなければならず、性別や民族性などの機密属性の摂動に対して不変であることにより、差別的な決定を回避する必要があります。
ただし、これらの摂動に関する人間の直感と、それらを捉える正式な類似性仕様との間にはギャップがあります。
このギャップに対処するための既存の研究が開始されていますが、現在の方法はハードコーディングされた単語の置換に基づいているため、表現力が制限された仕様や、人間の直感と完全に一致しない仕様になっています (非対称反事実の場合など)。
この作業は、表現力豊かで直感的な個々の公平性の仕様を発見することにより、このギャップを埋めるための新しい方法を提案します。
教師なしスタイル転送と GPT-3 のゼロショット機能を活用して、センシティブな属性が異なる意味的に類似した文の表現力豊かな候補ペアを自動的に生成する方法を示します。
次に、大規模なクラウドソーシング研究を通じて生成されたペアを検証し、これらのペアの多くが毒性分類の文脈における公平性に関する人間の直感と一致することを確認します.
最後に、限られた量の人間のフィードバックを活用して、下流の公平性認識モデルのトレーニングに使用できる類似性の仕様を学習する方法を示します。

要約(オリジナル)

Text classifiers have promising applications in high-stake tasks such as resume screening and content moderation. These classifiers must be fair and avoid discriminatory decisions by being invariant to perturbations of sensitive attributes such as gender or ethnicity. However, there is a gap between human intuition about these perturbations and the formal similarity specifications capturing them. While existing research has started to address this gap, current methods are based on hardcoded word replacements, resulting in specifications with limited expressivity or ones that fail to fully align with human intuition (e.g., in cases of asymmetric counterfactuals). This work proposes novel methods for bridging this gap by discovering expressive and intuitive individual fairness specifications. We show how to leverage unsupervised style transfer and GPT-3’s zero-shot capabilities to automatically generate expressive candidate pairs of semantically similar sentences that differ along sensitive attributes. We then validate the generated pairs via an extensive crowdsourcing study, which confirms that a lot of these pairs align with human intuition about fairness in the context of toxicity classification. Finally, we show how limited amounts of human feedback can be leveraged to learn a similarity specification that can be used to train downstream fairness-aware models.

arxiv情報

著者 Florian E. Dorner,Momchil Peychev,Nikola Konstantinov,Naman Goel,Elliott Ash,Martin Vechev
発行日 2023-03-16 08:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク