要約
概念消去は、指定された特徴を表現から削除することを目的としています。
これは、公平性 (例: 分類子が性別や人種を使用できないようにする) と解釈可能性 (例: モデルの動作の変化を観察するための概念を削除する) を改善するために使用できます。
この論文では、表現へのダメージを最小限に抑えながら、すべての線形分類器による概念の検出を証明できる閉形式手法である LEAst-squares Concept Erasure (LEACE) を紹介します。
私たちは、ネットワーク内のすべての層からターゲットの概念情報を消去する「概念スクラビング」と呼ばれる新しい手順を使用して、大規模な言語モデルに LEACE を適用します。
我々は、品詞情報に対する言語モデルの依存度の測定と、BERT 埋め込みにおけるジェンダーバイアスの低減という 2 つのタスクにおけるこの方法の有用性を実証します。
コードは https://github.com/EleutherAI/concept-erasure で入手できます。
要約(オリジナル)
Concept erasure aims to remove specified features from a representation. It can be used to improve fairness (e.g. preventing a classifier from using gender or race) and interpretability (e.g. removing a concept to observe changes in model behavior). In this paper, we introduce LEAst-squares Concept Erasure (LEACE), a closed-form method which provably prevents all linear classifiers from detecting a concept while inflicting the least possible damage to the representation. We apply LEACE to large language models with a novel procedure called ‘concept scrubbing,’ which erases target concept information from every layer in the network. We demonstrate the usefulness of our method on two tasks: measuring the reliance of language models on part-of-speech information, and reducing gender bias in BERT embeddings. Code is available at https://github.com/EleutherAI/concept-erasure.
arxiv情報
著者 | Nora Belrose,David Schneider-Joseph,Shauli Ravfogel,Ryan Cotterell,Edward Raff,Stella Biderman |
発行日 | 2023-06-06 16:07:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google