Multilingual BERT has an accent: Evaluating English influences on fluency in multilingual models

要約

【タイトル】
多言語BERTにはアクセントがある:多言語モデルにおける英語の流暢さに対する影響の評価

【要約】
・多言語の言語モデルは、高資源言語を活用することによって、低資源言語のNLPパフォーマンスを向上させることができるが、ともにすべての言語の平均パフォーマンスを低下させる(「多言語の呪い」)
・ここでは、多言語モデルに別の問題があることを示す:高資源言語の文法構造が低資源言語に浸透する現象(文法構造バイアス)
・我々は、多言語モデルの流暢さを単言語のスペイン語とギリシャ語のモデルの流暢さと比較するための新しい方法を提供し、二つの文法構造(スペイン語の省略可能な主語とギリシャ語の省略可能な主語-動詞の順序)の好みをテストした。
・我々は、多言語BERTは英語に類似した設定(明示的な代名詞と主語-動詞-目的語の順序)に偏っていることを発見しました。我々の事例研究により、多言語モデルがバイアスを持つ微妙な方法について明らかにし、言語学的に認識された流暢性の評価を促進することを望んでいます。

要約(オリジナル)

While multilingual language models can improve NLP performance on low-resource languages by leveraging higher-resource languages, they also reduce average performance on all languages (the ‘curse of multilinguality’). Here we show another problem with multilingual models: grammatical structures in higher-resource languages bleed into lower-resource languages, a phenomenon we call grammatical structure bias. We show this bias via a novel method for comparing the fluency of multilingual models to the fluency of monolingual Spanish and Greek models: testing their preference for two carefully-chosen variable grammatical structures (optional pronoun-drop in Spanish and optional Subject-Verb ordering in Greek). We find that multilingual BERT is biased toward the English-like setting (explicit pronouns and Subject-Verb-Object ordering) as compared to our monolingual control language model. With our case studies, we hope to bring to light the fine-grained ways in which multilingual models can be biased,and encourage more linguistically-aware fluency evaluation.

arxiv情報

著者 Isabel Papadimitriou,Kezia Lopez,Dan Jurafsky
発行日 2023-04-13 14:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク