要約
線形性を前提とした神経表現から人間が解釈可能な概念を消去する方法は、扱いやすく有用であることがわかっています。
ただし、変更された表現でトレーニングされた下流の分類器の動作に対するこの削除の影響は完全には理解されていません。
この研究では、対数線形保護の概念を、攻撃者がその概念を表現から直接予測できないこととして正式に定義し、その意味を研究します。
バイナリの場合、特定の仮定の下では、下流の対数線形モデルは消去された概念を回復できないことを示します。
しかし、我々は、場合によっては概念を間接的に回復するマルチクラス対数線形モデル \emph{可能} を構築できることを実証し、下流バイアス緩和手法としての対数線形保護の固有の制限を指摘しています。
これらの発見は、線形消去法の理論的限界を明らかにし、ニューラル モデルにおける内因性バイアスと外因性バイアスの間の関係についてさらなる研究の必要性を強調しています。
要約(オリジナル)
Methods for erasing human-interpretable concepts from neural representations that assume linearity have been found to be tractable and useful. However, the impact of this removal on the behavior of downstream classifiers trained on the modified representations is not fully understood. In this work, we formally define the notion of log-linear guardedness as the inability of an adversary to predict the concept directly from the representation, and study its implications. We show that, in the binary case, under certain assumptions, a downstream log-linear model cannot recover the erased concept. However, we demonstrate that a multiclass log-linear model \emph{can} be constructed that indirectly recovers the concept in some cases, pointing to the inherent limitations of log-linear guardedness as a downstream bias mitigation technique. These findings shed light on the theoretical limitations of linear erasure methods and highlight the need for further research on the connections between intrinsic and extrinsic bias in neural models.
arxiv情報
著者 | Shauli Ravfogel,Yoav Goldberg,Ryan Cotterell |
発行日 | 2023-07-23 19:50:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google