An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient Language Model Inference

要約

最先端の生成大規模言語モデル (LLM) の開発は、英語中心のトークナイザー、語彙、事前トレーニング データに過度に依存しています。
一部の LLM には多言語機能があるにもかかわらず、英語以外の言語でテキストを生成すると推論効率が低下することが最近の研究で示されています。
これにより、推論時間とコストが増加します。
クロスリンガル語彙適応 (CVA) 方法は、下流のパフォーマンスを向上させることを目的として、モデルをターゲット言語に適応させるために提案されています。
ただし、生成 LLM の推論効率の向上に対するこれらの方法の有効性はまだ調査されていません。
この論文では、類型的に多様な 4 つの言語と 4 つの自然言語理解タスクにわたる 4 つの生成 LLM (単言語および多言語モデルを含む) に対して 5 つの CVA 手法の実証研究を実行します。
CVA が LLM 推論の最大 271.5\% の高速化に大きく貢献していることがわかりました。
また、よりバランスの取れた多言語データで事前トレーニングされた LLM を適応させると、元のモデルと同等のダウンストリーム パフォーマンスが得られることも示します。

要約(オリジナル)

The development of state-of-the-art generative large language models (LLMs) disproportionately relies on English-centric tokenizers, vocabulary and pre-training data. Despite the fact that some LLMs have multilingual capabilities, recent studies have shown that their inference efficiency deteriorates when generating text in languages other than English. This results in increased inference time and costs. Cross-lingual vocabulary adaptation (CVA) methods have been proposed for adapting models to a target language aiming to improve downstream performance. However, the effectiveness of these methods on increasing inference efficiency of generative LLMs has yet to be explored. In this paper, we perform an empirical study of five CVA methods on four generative LLMs (including monolingual and multilingual models) across four typologically-diverse languages and four natural language understanding tasks. We find that CVA substantially contributes to LLM inference speedups of up to 271.5\%. We also show that adapting LLMs that have been pre-trained on more balanced multilingual data results in downstream performance comparable to the original models.

arxiv情報

著者 Atsuki Yamaguchi,Aline Villavicencio,Nikolaos Aletras
発行日 2024-09-26 11:15:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク