要約
大規模言語モデル (LLM) は、英語以外の多くの言語で顕著な機能を示しています。
しかし、LLM は英語中心のトークナイザーと語彙に依存しているため、英語以外のテキストを生成するときにより多くの推論ステップを必要とし、その結果、非英語話者にとっての使用コストが高くなります。
ターゲット言語トークンを使用した語彙拡張は、この問題を解決するために広く使用されている言語間の語彙適応アプローチです。
推論の高速化における有効性にもかかわらず、語彙拡張に関するこれまでの研究は、新しいトークンの埋め込みを効果的に初期化し、LLM をターゲット言語に適応させるために、相当量のターゲット言語データへのアクセスを前提とした高リソース設定に焦点を当てていました。
ただし、リソースが少ない環境での語彙の拡張についてはまだ検討されていません。
この論文では、埋め込み初期化手法と継続的な事前トレーニング戦略を考慮することにより、低リソース環境における語彙の拡張を調査します。
類型的に多様な言語、タスク、モデルにわたる広範な実験を通じて、ターゲット言語からのわずか 30,000 文 ($\sim$0.01GB テキスト データ) で競争力のあるダウンストリーム パフォーマンスをベースラインまで維持しながら、推論を高速化するための語彙拡張を実行するための一連の戦略を確立しました。
要約(オリジナル)
Large language models (LLMs) have shown remarkable capabilities in many languages beyond English. Yet, LLMs require more inference steps when generating non-English text due to their reliance on English-centric tokenizers and vocabulary, resulting in higher usage costs to non-English speakers. Vocabulary expansion with target language tokens is a widely used cross-lingual vocabulary adaptation approach to remedy this issue. Despite its effectiveness in inference speedup, previous work on vocabulary expansion has focused on high-resource settings assuming access to a substantial amount of target language data to effectively initialize the embeddings of the new tokens and adapt the LLM to the target language. However, vocabulary expansion in low-resource settings has yet to be explored. In this paper, we investigate vocabulary expansion in low-resource settings by considering embedding initialization methods and continual pre-training strategies. Through extensive experiments across typologically diverse languages, tasks and models, we establish a set of strategies to perform vocabulary expansion for faster inference, maintaining competitive downstream performance to baselines with only 30K sentences ($\sim$0.01GB text data) from the target language.
arxiv情報
著者 | Atsuki Yamaguchi,Aline Villavicencio,Nikolaos Aletras |
発行日 | 2024-09-16 13:55:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google