要約
タイトル: アトリビュート削除サブネットワークを用いたモジュラーかつオンデマンドなバイアス修正
要約: 社会的バイアスが大規模なプリトレーニング言語モデルとそれらのダウンストリームタスクでのファインチューニングに表れます。対抗的トレーニングや相互情報削除などの一般的なインプロセシングバイアス低減方法は、追加の最適化基準を導入して、モデルを新しいデバイステートに達するように更新します。しかし、実際には、エンドユーザーや実践者は、元のモデルに戻ったり、保護された属性の特定のサブセットに対してのみデバイス化を適用することを好む場合があります。これを可能にするために、私たちは、スタンドアロンの非常にスパースなデバイアシングサブネットワークからなる新しいモジュラーバイアス改善アプローチを提案します。各デバイアシングモジュールは、推測時にコアモデルにオンデマンドで統合できます。私たちのアプローチは、diffプルーニングの概念に基づいており、さまざまな表現分離最適化に適応可能な新しいトレーニングレジメンを提案しています。私たちは、性別、人種、年齢を保護された属性とした3つの分類タスクで実験を行いました。結果は、モジュラーアプローチがタスクパフォーマンスを維持しながら、基準のファインチューニングと比較して、バイアス低減の有効性を改善(または少なくとも同等に保つ)ことを示しています。特に、2つの属性のデータセットでは、個別に学習されたデバイアス化サブネットワークを使用したアプローチは、選択的バイアス低減においてサブネットワークのどちらか、または両方を効果的に利用しています。
要約(オリジナル)
Societal biases are reflected in large pre-trained language models and their fine-tuned versions on downstream tasks. Common in-processing bias mitigation approaches, such as adversarial training and mutual information removal, introduce additional optimization criteria, and update the model to reach a new debiased state. However, in practice, end-users and practitioners might prefer to switch back to the original model, or apply debiasing only on a specific subset of protected attributes. To enable this, we propose a novel modular bias mitigation approach, consisting of stand-alone highly sparse debiasing subnetworks, where each debiasing module can be integrated into the core model on-demand at inference time. Our approach draws from the concept of \emph{diff} pruning, and proposes a novel training regime adaptable to various representation disentanglement optimizations. We conduct experiments on three classification tasks with gender, race, and age as protected attributes. The results show that our modular approach, while maintaining task performance, improves (or at least remains on-par with) the effectiveness of bias mitigation in comparison with baseline finetuning. Particularly on a two-attribute dataset, our approach with separately learned debiasing subnetworks shows effective utilization of either or both the subnetworks for selective bias mitigation.
arxiv情報
| 著者 | Lukas Hauzenberger,Shahed Masoudian,Deepak Kumar,Markus Schedl,Navid Rekabsaz |
| 発行日 | 2023-05-04 13:29:47+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI