Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP

要約

低リソース言語および中リソース言語の単一言語言語モデルの開発は、高品質のトレーニング データを入手することが難しいため、引き続き妨げられています。
この研究では、この課題に取り組み、より効率的な言語適応を可能にするために設計された、新しい言語間語彙伝達戦略であるトランストークン化を紹介します。
私たちのアプローチは、ソース言語からの意味的に類似したトークン埋め込みの加重平均を使用してターゲット言語のトークン埋め込みを初期化することにより、高リソースのモノリンガル LLM を目に見えないターゲット言語に適応させることに焦点を当てています。
このために、ソース言語とターゲット言語の両方をカバーする翻訳リソースを活用します。
私たちは、一連のトランストークン化 LLM である Tweeties を使用してメソッドを検証し、小規模ながら多様な言語セットにわたるさまざまな下流タスクで競争力のあるパフォーマンスを実証します。
さらに、複数の交換可能な言語モデリング ヘッドと埋め込みテーブルを備えたモデルである Hydra LLM を導入し、トランストークン化戦略の機能をさらに拡張します。
多言語モデル TowerInstruct に基づいて Hydra LLM を設計することにより、高品質の並列データの必要性を完全に回避して、ゼロショット方式でタタール語用の最先端の機械翻訳モデルを開発しました。
この画期的な進歩は、高品質の並列データを入手することが難しいタタール語のような低リソース言語にとって特に重要です。
高品質のモデルをトレーニングするためのデータと時間の要件を軽減することで、トランストークン化戦略により、より広範囲の言語、特にリソースが限られている言語向けの LLM の開発が可能になります。
私たちの取り組みが、言語を越えた語彙伝達の分野におけるさらなる研究と協力を促し、世界規模での言語のエンパワーメントに貢献することを願っています。

要約(オリジナル)

The development of monolingual language models for low and mid-resource languages continues to be hindered by the difficulty in sourcing high-quality training data. In this study, we present a novel cross-lingual vocabulary transfer strategy, trans-tokenization, designed to tackle this challenge and enable more efficient language adaptation. Our approach focuses on adapting a high-resource monolingual LLM to an unseen target language by initializing the token embeddings of the target language using a weighted average of semantically similar token embeddings from the source language. For this, we leverage a translation resource covering both the source and target languages. We validate our method with the Tweeties, a series of trans-tokenized LLMs, and demonstrate their competitive performance on various downstream tasks across a small but diverse set of languages. Additionally, we introduce Hydra LLMs, models with multiple swappable language modeling heads and embedding tables, which further extend the capabilities of our trans-tokenization strategy. By designing a Hydra LLM based on the multilingual model TowerInstruct, we developed a state-of-the-art machine translation model for Tatar, in a zero-shot manner, completely bypassing the need for high-quality parallel data. This breakthrough is particularly significant for low-resource languages like Tatar, where high-quality parallel data is hard to come by. By lowering the data and time requirements for training high-quality models, our trans-tokenization strategy allows for the development of LLMs for a wider range of languages, especially those with limited resources. We hope that our work will inspire further research and collaboration in the field of cross-lingual vocabulary transfer and contribute to the empowerment of languages on a global scale.

arxiv情報

著者 François Remy,Pieter Delobelle,Hayastan Avetisyan,Alfiya Khabibullina,Miryam de Lhoneux,Thomas Demeester
発行日 2024-08-08 08:37:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク