From English-Centric to Effective Bilingual: LLMs with Custom Tokenizers for Underrepresented Languages

要約

この論文では、英語およびあらゆるターゲット言語をサポートするバイリンガルベースの大規模言語モデル (LLM) を開発するための、モデルに依存しないコスト効率の高いアプローチを提案します。
この方法には、語彙の拡張、新しい埋め込みの初期化、モデルのトレーニングと評価が含まれます。
私たちは、ウクライナ語、アラビア語、グルジア語という非ラテン文字を使用する 3 つの言語で実験を実行しました。
私たちのアプローチは、計算コストを削減しながら言語パフォーマンスの向上を示しています。
これにより、過小評価されている言語に対する不当なペナルティが軽減され、公平性が促進され、コードスイッチングや文法違反などの有害な現象が最小限に抑えられます。
さらに、言語の品質を評価するための新しい指標を導入し、語彙のサイズが生成されるテキストの品質に大きな影響を与えることを明らかにしました。

要約(オリジナル)

In this paper, we propose a model-agnostic cost-effective approach to developing bilingual base large language models (LLMs) to support English and any target language. The method includes vocabulary expansion, initialization of new embeddings, model training and evaluation. We performed our experiments with three languages, each using a non-Latin script – Ukrainian, Arabic, and Georgian. Our approach demonstrates improved language performance while reducing computational costs. It mitigates the disproportionate penalization of underrepresented languages, promoting fairness and minimizing adverse phenomena such as code-switching and broken grammar. Additionally, we introduce new metrics to evaluate language quality, revealing that vocabulary size significantly impacts the quality of generated text.

arxiv情報

著者 Artur Kiulian,Anton Polishko,Mykola Khandoga,Yevhen Kostiuk,Guillermo Gabrielli,Łukasz Gagała,Fadi Zaraket,Qusai Abu Obaida,Hrishikesh Garud,Wendy Wing Yee Mak,Dmytro Chaplynskyi,Selma Belhadj Amor,Grigol Peradze
発行日 2024-10-24 15:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク