要約
多言語言語モデリングにおける主な考慮事項は、多様な語彙と文字を持つ言語を最適に表現する方法です。
現代のテキスト エンコード方法は世界のほとんどの文字体系をカバーしていますが、世界西部の高リソース言語に偏りが見られます。
その結果、過小評価されている言語のテキストは、言語的に意味のない長い単位のシーケンスに分割される傾向があります。
この格差に対処するために、さまざまな言語間で同じ情報を一貫したサイズのセグメントでエンコードする新しいパラダイムを導入します。
私たちのエンコード規則 (MYTE) は、形態素に基づいています。これは、形態素のインベントリが、以前の方法で使用されていた文字よりも言語間でバランスが取れているためです。
MYTE は、分析された 99 言語すべてに対して短いエンコーディングを生成し、非ヨーロッパ言語と非ラテン文字に関して最も顕著な改善が見られることを示します。
これにより、多言語 LM のパフォーマンスが向上し、多様な言語全体にわたる複雑さのギャップが減少します。
要約(オリジナル)
A major consideration in multilingual language modeling is how to best represent languages with diverse vocabularies and scripts. Although contemporary text encoding methods cover most of the world’s writing systems, they exhibit bias towards the high-resource languages of the Global West. As a result, texts of underrepresented languages tend to be segmented into long sequences of linguistically meaningless units. To address the disparities, we introduce a new paradigm that encodes the same information with segments of consistent size across diverse languages. Our encoding convention (MYTE) is based on morphemes, as their inventories are more balanced across languages than characters, which are used in previous methods. We show that MYTE produces shorter encodings for all 99 analyzed languages, with the most notable improvements for non-European languages and non-Latin scripts. This, in turn, improves multilingual LM performance and diminishes the perplexity gap throughout diverse languages.
arxiv情報
著者 | Tomasz Limisiewicz,Terra Blevins,Hila Gonen,Orevaoghene Ahia,Luke Zettlemoyer |
発行日 | 2024-11-11 13:33:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google