All Should Be Equal in the Eyes of Language Models: Counterfactually Aware Fair Text Generation

要約

言語モデル (LM) の公平性は、トレーニング データに固有のバイアスがあり、モデルによって永続化され、下流のタスクに影響を与える可能性があるため、長年の課題のままです。
最近の方法では、高価な再トレーニングを使用したり、偏ったテンプレートやサンプルの参照セットからの対照となるようにモデルの出力を制約することで、推論中にバイアスの除去を試みたりしています。
いずれにせよ、それらは、異なる人口統計グループ間で公平性を維持するという公平性という主な目的には取り組んでいません。
この研究では、あるコンテキストの下で 1 つの人口統計に対して偏りのない出力を生成する LM の推論は、同じコンテキストの下で他の人口統計に対する出力を認識することから生じると仮定します。
この目的を達成するために、我々は、多様な人口統計のモデル理解を動的に比較してより公平な文章を生成するフレームワークである、Counterfactually Aware Fair InferencE (CAFIE) を提案します。
私たちは、さまざまなサイズのベース LM と 3 つの多様なデータセットを使用して広範な経験的評価を実施し、CAFIE が強力なベースラインを上回るパフォーマンスを発揮することを発見しました。
CAFIE はより公平なテキストを生成し、公平性と言語モデリング機能の間で最適なバランスを実現します。

要約(オリジナル)

Fairness in Language Models (LMs) remains a longstanding challenge, given the inherent biases in training data that can be perpetuated by models and affect the downstream tasks. Recent methods employ expensive retraining or attempt debiasing during inference by constraining model outputs to contrast from a reference set of biased templates or exemplars. Regardless, they dont address the primary goal of fairness to maintain equitability across different demographic groups. In this work, we posit that inferencing LMs to generate unbiased output for one demographic under a context ensues from being aware of outputs for other demographics under the same context. To this end, we propose Counterfactually Aware Fair InferencE (CAFIE), a framework that dynamically compares the model understanding of diverse demographics to generate more equitable sentences. We conduct an extensive empirical evaluation using base LMs of varying sizes and across three diverse datasets and found that CAFIE outperforms strong baselines. CAFIE produces fairer text and strikes the best balance between fairness and language modeling capability

arxiv情報

著者 Pragyan Banerjee,Abhinav Java,Surgan Jandial,Simra Shahid,Shaz Furniturewala,Balaji Krishnamurthy,Sumit Bhatia
発行日 2023-11-09 15:39:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク