要約
言語モデル (LM) は、非西洋言語で動作する場合、西洋文化に関連するエンティティに対して強い選好を示すことが示されています。
この論文では、トレーニング前データにおけるエンティティの表現や言語間の言語現象の変動の影響など、いくつかの要因を分析することにより、LM におけるエンティティ関連の文化的バイアスの起源を明らかにすることを目的としています。
アラブ文化と西洋文化に関連する 58,086 個のエンティティと、エンティティのマスクされた 367 個の自然コンテキストのアラビア語と英語の並列ベンチマークである CAMeL-2 を紹介します。
CAMeL-2 を使用した評価では、アラビア語と比較して英語でテストした場合、LM による文化間のパフォーマンスの差が減少していることが明らかになりました。
LM はアラビア語で、エンティティが複数の語義を保持できる事前トレーニングで高頻度に現れるエンティティに苦戦していることがわかりました。
これは、アラビア語ではないがアラビア文字を使用する言語と高い語彙的重複を示すエンティティにも当てはまります。
さらに、頻度ベースのトークン化がどのように LM でこの問題を引き起こし、アラビア語の語彙が増えるとさらに悪化するかを示します。
CAMeL-2 は https://github.com/tareknaous/camel2 で利用できるようにします。
要約(オリジナル)
Language Models (LMs) have been shown to exhibit a strong preference towards entities associated with Western culture when operating in non-Western languages. In this paper, we aim to uncover the origins of entity-related cultural biases in LMs by analyzing several contributing factors, including the representation of entities in pre-training data and the impact of variations in linguistic phenomena across languages. We introduce CAMeL-2, a parallel Arabic-English benchmark of 58,086 entities associated with Arab and Western cultures and 367 masked natural contexts for entities. Our evaluations using CAMeL-2 reveal reduced performance gaps between cultures by LMs when tested in English compared to Arabic. We find that LMs struggle in Arabic with entities that appear at high frequencies in pre-training, where entities can hold multiple word senses. This also extends to entities that exhibit high lexical overlap with languages that are not Arabic but use the Arabic script. Further, we show how frequency-based tokenization leads to this issue in LMs, which gets worse with larger Arabic vocabularies. We will make CAMeL-2 available at: https://github.com/tareknaous/camel2
arxiv情報
著者 | Tarek Naous,Wei Xu |
発行日 | 2025-01-08 18:15:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google