Impact of Tokenization on LLaMa Russian Adaptation

要約

最新の命令調整された大規模言語モデル (LLM) は、さまざまなタスクで優れた結果を示しますが、英語以外の入力ではパフォーマンスの低下に直面することがよくあります。
その理由は、英語以外の命令の理解を妨げ、ターゲット言語の命令チューニングの可能性を制限する、トレーニング前データの低言語表現によって引き起こされる非効率なトークン化にあるという証拠があります。
この研究では、LLaMa ロシア語適応の文脈における語彙置換の問題に対処する可能性を調査します。
語彙適応の 3 つのバリエーションを調査し、Saiga の命令チューニングとロシアの Super Glue ベンチマークでの微調整でのパフォーマンスをテストします。
自動評価の結果は、語彙置換によりロシア語モデルの品質が向上するだけでなく、メモリ消費量を削減しながら微調整 (35%) と推論 (最大 60%) を高速化することが示されました。
命令調整モデルの人間による追加評価では、ロシア語に適応した語彙を含むモデルが、元の Saiga-LLaMa モデルよりもユーザーの好みが高い回答を生成することが実証されました。

要約(オリジナル)

Latest instruction-tuned large language models (LLM) show great results on various tasks, however, they often face performance degradation for non-English input. There is evidence that the reason lies in inefficient tokenization caused by low language representation in pre-training data which hinders the comprehension of non-English instructions, limiting the potential of target language instruction-tuning. In this work we investigate the possibility of addressing the issue with vocabulary substitution in the context of LLaMa Russian language adaptation. We explore three variants of vocabulary adaptation and test their performance on Saiga instruction-tuning and fine-tuning on Russian Super Glue benchmark. The results of automatic evaluation show that vocabulary substitution not only improves the model’s quality in Russian but also accelerates fine-tuning (35%) and inference (up to 60%) while reducing memory consumption. Additional human evaluation of the instruction-tuned models demonstrates that models with Russian-adapted vocabulary generate answers with higher user preference than the original Saiga-LLaMa model.

arxiv情報

著者 Mikhail Tikhomirov,Daniil Chernyshev
発行日 2023-12-05 09:16:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク