LEACE: Perfect linear concept erasure in closed form

要約

概念消去は、指定された特徴を表現から削除することを目的としています。
これにより、公平性 (例: 分類子が性別や人種を使用できないようにする) と解釈可能性 (例: モデルの動作の変化を観察するための概念を削除する) を改善できます。
LEAst-squares Concept Erasure (LEAst-squares Concept Erasure) (LEACE) を導入します。これは、広範な基準で測定されるように、表現の変更を最小限に抑えながら、すべての線形分類子が概念を検出することを証明する閉形式手法です。
私たちは、ネットワーク内のすべての層からターゲットの概念情報を消去する「概念スクラビング」と呼ばれる新しい手順を使用して、大規模な言語モデルに LEACE を適用します。
品詞情報に対する言語モデルの依存度の測定と、BERT 埋め込みにおけるジェンダー バイアスの削減という 2 つのタスクに関する方法を実証します。
コードは https://github.com/EleutherAI/concept-erasure で入手できます。

要約(オリジナル)

Concept erasure aims to remove specified features from a representation. It can improve fairness (e.g. preventing a classifier from using gender or race) and interpretability (e.g. removing a concept to observe changes in model behavior). We introduce LEAst-squares Concept Erasure (LEACE), a closed-form method which provably prevents all linear classifiers from detecting a concept while changing the representation as little as possible, as measured by a broad class of norms. We apply LEACE to large language models with a novel procedure called ‘concept scrubbing,’ which erases target concept information from every layer in the network. We demonstrate our method on two tasks: measuring the reliance of language models on part-of-speech information, and reducing gender bias in BERT embeddings. Code is available at https://github.com/EleutherAI/concept-erasure.

arxiv情報

著者 Nora Belrose,David Schneider-Joseph,Shauli Ravfogel,Ryan Cotterell,Edward Raff,Stella Biderman
発行日 2023-10-29 21:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク