Why do language models perform worse for morphologically complex languages?

要約

言語モデルのパフォーマンスは言語ごとに異なります。
形態学的類型学がこの変動性の一部を説明できる可能性があることが以前に示唆されています (Cotterell et al., 2018)。
私たちは以前の分析を再現し、膠着言語と融合言語の間のパフォーマンスのギャップに関する新たな証拠をさらに発見しました。英語などの融合言語は、トルコ語のような形態学的に複雑な言語よりも言語モデリングのパフォーマンスが優れている傾向があります。
次に、このパフォーマンス ギャップの考えられる 3 つの原因、つまりトークナイザーの形態学的調整、トークナイゼーションの品質、データセットのサイズと測定値の差異を提案し、テストします。
形態学的整列仮説をテストするために、トークナイザーの評価指標である MorphScore と 22 の言語をサポートするデータセットを紹介します。
トークン化の品質がパフォーマンスのギャップを説明する証拠はいくつか見つかりましたが、形態学的アライメントの役割については何も説明されていません。
代わりに、トレーニング データセットのサイズが言語の種類を問わず同じである場合に、パフォーマンスのギャップが最も小さくなることがわかりました。ただし、それは、いわゆる「バイト プレミアム」、つまり言語や正書法が異なるとエンコード効率が異なることに応じてスケーリングした場合に限られます。
これらの結果は、形態学的類型に基づいて言語モデルを学習するのに、これほど難しい言語も簡単な言語もないことを示唆しています。
パフォーマンスの違いは、データセット サイズの違いに起因する可能性があります。
これらの結果は、パフォーマンスが低くリソースが不足している言語のパフォーマンスを向上させるための継続的な取り組みを反映しています。

要約(オリジナル)

Language models perform differently across languages. It has been previously suggested that morphological typology may explain some of this variability (Cotterell et al., 2018). We replicate previous analyses and find additional new evidence for a performance gap between agglutinative and fusional languages, where fusional languages, such as English, tend to have better language modeling performance than morphologically more complex languages like Turkish. We then propose and test three possible causes for this performance gap: morphological alignment of tokenizers, tokenization quality, and disparities in dataset sizes and measurement. To test the morphological alignment hypothesis, we present MorphScore, a tokenizer evaluation metric, and supporting datasets for 22 languages. We find some evidence that tokenization quality explains the performance gap, but none for the role of morphological alignment. Instead we find that the performance gap is most reduced when training datasets are of equivalent size across language types, but only when scaled according to the so-called ‘byte-premium’ — the different encoding efficiencies of different languages and orthographies. These results suggest that no language is harder or easier for a language model to learn on the basis of its morphological typology. Differences in performance can be attributed to disparities in dataset size. These results bear on ongoing efforts to improve performance for low-performing and under-resourced languages.

arxiv情報

著者 Catherine Arnett,Benjamin K. Bergen
発行日 2024-11-21 15:06:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク