In What Languages are Generative Language Models the Most Formal? Analyzing Formality Distribution across Languages

要約

多言語生成言語モデル (LM) は、さまざまな言語にますます流暢になっています。
複数の言語でのコーパスの連結について訓練されているため、リソースの多い言語からリソースの少ない言語への強力な移行が可能になります。
ただし、これらのモデルの予測にどのような文化的偏見が誘発されるかはまだ不明です。
この作業では、文化の影響を強く受ける言語の 1 つの特性である形式性に焦点を当てます。
XGLM と BLOOM の予測、2 つの一般的な生成多言語モデルの形式分布を 5 つの言語で分析します。
言語ごとに 1,200 世代を公式、非公式、またはまとまりのないものとして分類し、迅速な形式が予測に与える影響を測定します。
全体として、モデルと言語全体で多様な動作が見られます。
たとえば、XGLM は、BLOOM よりもはるかに非公式のプロンプトで条件付けされた場合、アラビア語とベンガル語で非公式のテキストを生成します。
さらに、どちらのモデルも、中立的に促された場合はフォーマルなスタイルに大きく偏っていますが、フォーマルなテキストで促された場合でも、モデルがかなりの量の非公式な予測を生成することがわかりました。
この作業で 6,000 の注釈付きサンプルをリリースし、生成的な多言語 LM の形式に関する将来の作業への道を開きます。

要約(オリジナル)

Multilingual generative language models (LMs) are increasingly fluent in a large variety of languages. Trained on the concatenation of corpora in multiple languages, they enable powerful transfer from high-resource languages to low-resource ones. However, it is still unknown what cultural biases are induced in the predictions of these models. In this work, we focus on one language property highly influenced by culture: formality. We analyze the formality distributions of XGLM and BLOOM’s predictions, two popular generative multilingual language models, in 5 languages. We classify 1,200 generations per language as formal, informal, or incohesive and measure the impact of the prompt formality on the predictions. Overall, we observe a diversity of behaviors across the models and languages. For instance, XGLM generates informal text in Arabic and Bengali when conditioned with informal prompts, much more than BLOOM. In addition, even though both models are highly biased toward the formal style when prompted neutrally, we find that the models generate a significant amount of informal predictions even when prompted with formal text. We release with this work 6,000 annotated samples, paving the way for future work on the formality of generative multilingual LMs.

arxiv情報

著者 Asım Ersoy,Gerson Vizcarra,Tasmiah Tahsin Mayeesha,Benjamin Muller
発行日 2023-02-23 19:39:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク