Shielded Representations: Protecting Sensitive Attributes Through Iterative Gradient-Based Projection

要約

自然言語処理モデルは、データ内に存在する社会的バイアスを学習してエンコードする傾向があります。
このようなバイアスに対処するための一般的なアプローチの 1 つは、モデルの表現からエンコードされた情報を削除することです。
ただし、現在の方法は、線形にエンコードされた情報のみを削除することに制限されています。
この研究では、ニューラル表現から非線形エンコードされた概念を削除するための新しい方法である反復勾配ベース投影 (IGBP) を提案します。
私たちの方法は、ニューラル分類器を反復的にトレーニングして、除去しようとする特定の属性を予測し、その後、分類器がターゲットの属性を意識しなくなるように、超曲面上に表現を投影することで構成されます。
私たちは、性別と人種の情報を機密属性として削除するというタスクに対する私たちの方法の有効性を評価します。
私たちの結果は、IGBP が、下流のタスクの精度への影響を最小限に抑えながら、内因性および外因性の評価を通じてバイアスを軽減するのに効果的であることを示しています。

要約(オリジナル)

Natural language processing models tend to learn and encode social biases present in the data. One popular approach for addressing such biases is to eliminate encoded information from the model’s representations. However, current methods are restricted to removing only linearly encoded information. In this work, we propose Iterative Gradient-Based Projection (IGBP), a novel method for removing non-linear encoded concepts from neural representations. Our method consists of iteratively training neural classifiers to predict a particular attribute we seek to eliminate, followed by a projection of the representation on a hypersurface, such that the classifiers become oblivious to the target attribute. We evaluate the effectiveness of our method on the task of removing gender and race information as sensitive attributes. Our results demonstrate that IGBP is effective in mitigating bias through intrinsic and extrinsic evaluations, with minimal impact on downstream task accuracy.

arxiv情報

著者 Shadi Iskander,Kira Radinsky,Yonatan Belinkov
発行日 2023-05-17 13:26:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク