Tik-to-Tok: Translating Language Models One Token at a Time: An Embedding Initialization Strategy for Efficient Language Adaptation

要約

低リソース言語および中リソース言語の単一言語言語モデルのトレーニングは、事前トレーニング データが限られ、しばしば不適切であるため、困難になります。
この研究では、この問題に対処するための新しいモデル変換戦略を提案し、高リソースの単一言語モデルを新しいターゲット言語に適応させます。
ソース言語とターゲット言語の両方を含む単語翻訳辞書を一般化することにより、ターゲット トークナイザーからのトークンをソース言語トークナイザーからの意味的に類似したトークンにマッピングします。
この 1 対多のトークン マッピングにより、ターゲット言語の埋め込みテーブルの初期化が大幅に改善されます。
私たちは、高リソースのモデルを中リソースおよび低リソースの言語、つまりオランダ語とフリジア語に変換する実験を行っています。
これらの変換されたモデルは、あらゆる種類の下流タスクにわたって、これらの言語で新しい最先端のパフォーマンスを実現します。
最先端のモデルのトレーニングに必要なデータ量と時間を大幅に削減することで、当社の新しいモデル変換戦略は世界中の多くの言語に利益をもたらす可能性があります。

要約(オリジナル)

Training monolingual language models for low and mid-resource languages is made challenging by limited and often inadequate pretraining data. In this study, we propose a novel model conversion strategy to address this issue, adapting high-resources monolingual language models to a new target language. By generalizing over a word translation dictionary encompassing both the source and target languages, we map tokens from the target tokenizer to semantically similar tokens from the source language tokenizer. This one-to-many token mapping improves tremendously the initialization of the embedding table for the target language. We conduct experiments to convert high-resource models to mid- and low-resource languages, namely Dutch and Frisian. These converted models achieve a new state-of-the-art performance on these languages across all sorts of downstream tasks. By reducing significantly the amount of data and time required for training state-of-the-art models, our novel model conversion strategy has the potential to benefit many languages worldwide.

arxiv情報

著者 François Remy,Pieter Delobelle,Bettina Berendt,Kris Demuynck,Thomas Demeester
発行日 2023-10-05 11:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク