Modular and On-demand Bias Mitigation with Attribute-Removal Subnetworks

要約

タイトル:属性削除サブネットワークによるモジュール型の需要に応じたバイアス緩和

要約:

– 社会的バイアスは、下流タスクでの大規模なプリトレーニング言語モデルとその微調整バージョンに反映されています。

– 敵対的トレーニングや相互情報除去のような一般的な内部処理バイアス緩和手法は、追加の最適化基準を導入し、モデルを新しいバイアスのない状態にアップデートします。

– しかしながら、実際には、エンドユーザーや実践者はオリジナルのモデルに切り替えたり、特定の保護された属性のサブセットにのみバイアスを緩和することを好む場合があります。

– これを可能にするために、私たちは、独立した非常に疎なバイアス緩和サブネットワークで構成される革新的なモジュール型のバイアス緩和アプローチを提案しました。

– 各バイアス緩和モジュールは、推論時に必要に応じてコアモデルに統合することができます。

– 私たちのアプローチは、diffプルーニングのコンセプトに基づいており、さまざまな表現弁別最適化に適応可能な革新的なトレーニングレジームを提案しています。

– 私たちは、保護対象属性として性別、人種、年齢の3つの分類タスクで実験を行いました。

– 結果は、私たちのモジュール型アプローチが、タスクパフォーマンスを維持しながら、ベースラインのファインチューニングと比較してバイアス緩和の効果を改善していることを示しています。

– 特に、2つの属性のデータセットでは、それぞれの学習済みバイアス緩和サブネットワークを使用して、選択的なバイアス緩和のためにどちらかまたは両方のサブネットワークを効果的に利用することができます。

要約(オリジナル)

Societal biases are reflected in large pre-trained language models and their fine-tuned versions on downstream tasks. Common in-processing bias mitigation approaches, such as adversarial training and mutual information removal, introduce additional optimization criteria, and update the model to reach a new debiased state. However, in practice, end-users and practitioners might prefer to switch back to the original model, or apply debiasing only on a specific subset of protected attributes. To enable this, we propose a novel modular bias mitigation approach, consisting of stand-alone highly sparse debiasing subnetworks, where each debiasing module can be integrated into the core model on-demand at inference time. Our approach draws from the concept of \emph{diff} pruning, and proposes a novel training regime adaptable to various representation disentanglement optimizations. We conduct experiments on three classification tasks with gender, race, and age as protected attributes. The results show that our modular approach, while maintaining task performance, improves (or at least remains on-par with) the effectiveness of bias mitigation in comparison with baseline finetuning. Particularly on a two-attribute dataset, our approach with separately learned debiasing subnetworks shows effective utilization of either or both the subnetworks for selective bias mitigation.

arxiv情報

著者 Lukas Hauzenberger,Shahed Masoudian,Deepak Kumar,Markus Schedl,Navid Rekabsaz
発行日 2023-05-03 04:54:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク