要約
大規模言語モデルの最近の進歩により、英語だけでなく英語以外の言語でも複雑な言語タスクの実行が容易になりました。
ただし、英語中心のコーパスでトレーニングされた Llama など、ほとんどの言語モデルのトークナイザーは、英語以外の言語のトークンを過度に断片化する傾向があります。
この問題は、ローマ字以外の言語で特に顕著であり、文字レベルまたは Unicode レベルで分割されることが多く、テキストの生成が遅くなります。
これに対処するために、私たちの研究では、これらの言語でのテキスト生成を迅速化するように設計された新しいフレームワークを導入しました。
このフレームワークは、従来の多言語トークナイザーよりも大きな言語単位を予測し、ターゲット言語に合わせて特別に調整されているため、必要なデコード手順の数が削減されます。
私たちの経験的結果は、提案されたフレームワークが、単言語タスクで事前トレーニングされた多言語モデルのパフォーマンスを維持しながら、標準のデコードと比較して生成速度を 1.9 倍向上させることを示しています。
要約(オリジナル)
Recent advancements in large language models have facilitated the execution of complex language tasks, not only in English but also in non-English languages. However, the tokenizers of most language models, such as Llama, trained on English-centric corpora, tend to excessively fragment tokens in non-English languages. This issue is especially pronounced in non-roman alphabetic languages, which are often divided at a character or even Unicode level, leading to slower text generation. To address this, our study introduces a novel framework designed to expedite text generation in these languages. This framework predicts larger linguistic units than those of conventional multilingual tokenizers and is specifically tailored to the target language, thereby reducing the number of decoding steps required. Our empirical results demonstrate that the proposed framework increases the generation speed by a factor of 1.9 compared to standard decoding while maintaining the performance of a pre-trained multilingual model on monolingual tasks.
arxiv情報
著者 | Jimin Hong,Gibbeum Lee,Jaewoong Cho |
発行日 | 2024-01-19 12:26:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google