要約
言語モデルの表現空間(LMS)を対象とした介入は、モデルの行動に影響を与える効果的な手段として浮上しています。
このような方法は、たとえば、モデルの表現内の性別などの人口統計情報のエンコードを排除または変更し、そうすることで反事実的な表現を作成するために採用されています。
ただし、介入は表現空間内で機能するため、テキストのどの側面が変更されるかを正確に理解することは、課題をもたらします。
このホワイトペーパーでは、表現を反事実を文字列反事実に変換する方法を示します。
このアプローチにより、特定の表現空間介入に対応する言語変化を分析し、特定の概念をエンコードするために使用される機能を解釈できることを実証します。
さらに、結果の反事実を使用して、データ増強を通じて分類におけるバイアスを緩和することができます。
要約(オリジナル)
Interventions targeting the representation space of language models (LMs) have emerged as an effective means to influence model behavior. Such methods are employed, for example, to eliminate or alter the encoding of demographic information such as gender within the model’s representations and, in so doing, create a counterfactual representation. However, because the intervention operates within the representation space, understanding precisely what aspects of the text it modifies poses a challenge. In this paper, we give a method to convert representation counterfactuals into string counterfactuals. We demonstrate that this approach enables us to analyze the linguistic alterations corresponding to a given representation space intervention and to interpret the features utilized to encode a specific concept. Moreover, the resulting counterfactuals can be used to mitigate bias in classification through data augmentation.
arxiv情報
著者 | Matan Avitan,Ryan Cotterell,Yoav Goldberg,Shauli Ravfogel |
発行日 | 2025-02-11 16:03:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google