Counteracts: Testing Stereotypical Representation in Pre-trained Language Models

要約

言語モデルは、さまざまな自然言語理解タスクで優れたパフォーマンスを示しています。
人間と同様に、言語モデルにも、トレーニング データから学習した独自のバイアスがある可能性があります。
パイプラインの一部として言語モデルを統合するダウンストリーム タスクが増えるにつれて、内部のステレオタイプな表現と、悪影響を軽減する方法を理解する必要があります。
この論文では、反例を使用して、事前に訓練された言語モデルの内部ステレオタイプ表現をテストする簡単な方法を提案しました。
主にジェンダーバイアスに焦点を当てましたが、この方法は他のタイプのバイアスにも拡張できます。
ナレッジ プロンプトとベース プロンプトで構成される 9 つの異なるクローズ スタイル プロンプトでモデルを評価しました。
私たちの結果は、事前に訓練された言語モデルは、無関係な知識を使用するときにある程度の堅牢性を示し、単語の位置や構文構造などの浅い言語的手がかりを好み、内部のステレオタイプの表現を変更することを示しています。
このような調査結果は、微調整と評価の両方に対して中立的なアプローチで言語モデルを操作する方法に光を当てます。

要約(オリジナル)

Language models have demonstrated strong performance on various natural language understanding tasks. Similar to humans, language models could also have their own bias that is learned from the training data. As more and more downstream tasks integrate language models as part of the pipeline, it is necessary to understand the internal stereotypical representation and the methods to mitigate the negative effects. In this paper, we proposed a simple method to test the internal stereotypical representation in pre-trained language models using counterexamples. We mainly focused on gender bias, but the method can be extended to other types of bias. We evaluated models on 9 different cloze-style prompts consisting of knowledge and base prompts. Our results indicate that pre-trained language models show a certain amount of robustness when using unrelated knowledge, and prefer shallow linguistic cues, such as word position and syntactic structure, to alter the internal stereotypical representation. Such findings shed light on how to manipulate language models in a neutral approach for both finetuning and evaluation.

arxiv情報

著者 Damin Zhang
発行日 2023-03-21 03:04:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク