Counteracts: Testing Stereotypical Representation in Pre-trained Language Models

要約

タイトル:「カウンターアクト:事前学習言語モデルにおけるステレオタイプ表現のテスト」

要約:
– 著者たちは、事前学習言語モデル(PLM)には人間の知識とともに、人間のステレオタイプがエンコードされると指摘し、ステレオタイプの否定的な影響を緩和するための方法を設計する必要があると考えている。
– 本論文では、PLMにおける内部ステレオタイプ的な知識を調べるために、カウンターエグザンプルを使用する。主にジェンダーのステレオタイプに焦点を当てるが、他のタイプのステレオタイプにも拡張できる。
– 著者たちは、異なる情報とベース知識を持つ9種類のクローズスタイルの試行に7種類のPLMを評価し、PLMsは関連のない情報や単語の位置や構文構造のような表面的な言語的手がかりの好みにはある程度耐性があることが示されたが、意味による情報の解釈力を欠いていることがわかった。
– これらの結果は、PLMsとのニュートラルなアプローチでのファインチューニングや評価方法を設計することを明らかにし、より良い方向性を示すものとなる。

要約(オリジナル)

Recently, language models have demonstrated strong performance on various natural language understanding tasks. Language models trained on large human-generated corpus encode not only a significant amount of human knowledge, but also the human stereotype. As more and more downstream tasks have integrated language models as part of the pipeline, it is necessary to understand the internal stereotypical representation in order to design the methods for mitigating the negative effects. In this paper, we use counterexamples to examine the internal stereotypical knowledge in pre-trained language models (PLMs) that can lead to stereotypical preference. We mainly focus on gender stereotypes, but the method can be extended to other types of stereotype. We evaluate 7 PLMs on 9 types of cloze-style prompt with different information and base knowledge. The results indicate that PLMs show a certain amount of robustness against unrelated information and preference of shallow linguistic cues, such as word position and syntactic structure, but a lack of interpreting information by meaning. Such findings shed light on how to interact with PLMs in a neutral approach for both finetuning and evaluation.

arxiv情報

著者 Damin Zhang,Julia Rayz,Romila Pradhan
発行日 2023-04-07 17:12:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク