要約
これまでの研究では、事前トレーニングされたマスク言語モデル (MLM) を使用したさまざまなタイプの社会的バイアスが報告されています。
ただし、いくつか例を挙げると、モデル サイズ、トレーニング データのサイズ、トレーニングの目的、事前トレーニング データのサンプリング元のドメイン、トークン化、事前トレーニングされたコーパスに存在する言語など、複数の基礎となる要素が MLM に関連付けられています。
これらの要因のどれがMLMによって学習される社会的偏見に影響を与えるかについては依然として不明です。
モデル要因と MLM によって学習された社会的バイアスとの関係、およびモデルの下流タスクのパフォーマンスを研究するために、さまざまなモデル サイズ、トレーニング目的、トークン化方法、トレーニング データ ドメインをカバーする 39 の事前トレーニング済み MLM に対して包括的な研究を実施します。
そして言語。
私たちの結果は、トークン化やモデルの目的など、先行文献では無視されがちな重要な要素に光を当てます。
要約(オリジナル)
Various types of social biases have been reported with pretrained Masked Language Models (MLMs) in prior work. However, multiple underlying factors are associated with an MLM such as its model size, size of the training data, training objectives, the domain from which pretraining data is sampled, tokenization, and languages present in the pretrained corpora, to name a few. It remains unclear as to which of those factors influence social biases that are learned by MLMs. To study the relationship between model factors and the social biases learned by an MLM, as well as the downstream task performance of the model, we conduct a comprehensive study over 39 pretrained MLMs covering different model sizes, training objectives, tokenization methods, training data domains and languages. Our results shed light on important factors often neglected in prior literature, such as tokenization or model objectives.
arxiv情報
著者 | Yi Zhou,Jose Camacho-Collados,Danushka Bollegala |
発行日 | 2023-10-19 17:33:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google