Accelerating Multilingual Language Model for Excessively Tokenized Languages

要約

大規模言語モデル (LLM) の最近の進歩により、複数言語でのさまざまなタスクのパフォーマンスが著しく向上しました。
ただし、主に英語中心のコーパスでトレーニングされた LLM のトークナイザーは、テキストを非ローマ字言語の文字または Unicode レベルのトークンに過度に断片化することが多く、非効率的なテキスト生成につながります。
このような言語でのテキスト生成を高速化するための、シンプルかつ効果的なフレームワークを紹介します。
私たちのアプローチには、事前トレーニングされた LLM の特定のターゲット言語に合わせて調整された語彙セットを備えた新しい言語モデル ヘッドを採用することが含まれます。
続いて、モデルのパフォーマンスが維持されていることを確認するための検証ステップを組み込みながら、新しいヘッドを微調整します。
このターゲットを絞った微調整により、他のモデル パラメーターを凍結しながら、ターゲット言語のトークンの断片化が効果的に削減されることを示します。
私たちの広範な実験により、提案されたフレームワークにより、ターゲットの単言語タスクで事前トレーニングされた多言語モデルのパフォーマンスを維持しながら、生成速度が 1.7 倍向上することが実証されました。

要約(オリジナル)

Recent advancements in large language models (LLMs) have remarkably enhanced performances on a variety of tasks in multiple languages. However, tokenizers in LLMs trained primarily on English-centric corpora often overly fragment a text into character or Unicode-level tokens in non-Roman alphabetic languages, leading to inefficient text generation. We introduce a simple yet effective framework to accelerate text generation in such languages. Our approach involves employing a new language model head with a vocabulary set tailored to a specific target language for a pre-trained LLM. This is followed by fine-tuning the new head while incorporating a verification step to ensure the model’s performance is preserved. We show that this targeted fine-tuning, while freezing other model parameters, effectively reduces token fragmentation for the target language. Our extensive experiments demonstrate that the proposed framework increases the generation speed by a factor of 1.7 while maintaining the performance of pre-trained multilingual models on target monolingual tasks.

arxiv情報

著者 Jimin Hong,Gibbeum Lee,Jaewoong Cho
発行日 2024-08-06 08:23:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク