要約
言語モデル (LM) の表現空間をターゲットとした介入は、モデルの動作に影響を与える効果的な手段として浮上しています。
このような方法は、たとえば、モデルの表現内の性別などの人口統計情報のエンコードを削除または変更するために使用され、そうすることで反事実的な表現が作成されます。
ただし、介入は表現空間内で機能するため、介入によってテキストのどの側面が変更されるかを正確に理解することが困難になります。
この論文では、表現の反事実を文字列の反事実に変換する方法を提供します。
我々は、このアプローチにより、与えられた表現空間介入に対応する言語変化を分析し、特定の概念をエンコードするために利用される特徴を解釈できることを実証します。
さらに、結果として生じる反事実は、データ拡張を通じて分類におけるバイアスを軽減するために使用できます。
要約(オリジナル)
Interventions targeting the representation space of language models (LMs) have emerged as an effective means to influence model behavior. Such methods are employed, for example, to eliminate or alter the encoding of demographic information such as gender within the model’s representations and, in so doing, create a counterfactual representation. However, because the intervention operates within the representation space, understanding precisely what aspects of the text it modifies poses a challenge. In this paper, we give a method to convert representation counterfactuals into string counterfactuals. We demonstrate that this approach enables us to analyze the linguistic alterations corresponding to a given representation space intervention and to interpret the features utilized to encode a specific concept. Moreover, the resulting counterfactuals can be used to mitigate bias in classification through data augmentation.
arxiv情報
著者 | Matan Avitan,Ryan Cotterell,Yoav Goldberg,Shauli Ravfogel |
発行日 | 2024-05-07 17:58:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google