LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages

要約

Large Language Model~(LLM) は、高リソース言語タスクでは優れた翻訳能力を示しますが、低リソース言語では、事前トレーニング中の多言語データが不十分なため、パフォーマンスが妨げられます。
これに対処するために、LLaMA シリーズ モデルでの広範な多言語継続的事前トレーニングの実施に 35,000 の A100-SXM4-80GB GPU 時間を費やし、100 を超える言語にわたる翻訳サポートを可能にします。
語彙の拡張やデータの増強などのトレーニング戦略の包括的な分析を通じて、LLaMAX を開発します。
驚くべきことに、LLaMAX は一般化能力を犠牲にすることなく、既存のオープンソース LLM と比較して大幅に高い翻訳パフォーマンスを達成し (spBLEU ポイント 10 以上)、フローレス島の特殊な翻訳モデル (M2M-100-12B) と同等のパフォーマンスを発揮します。
-101ベンチマーク。
広範な実験により、LLaMAX が堅牢な多言語基盤モデルとして機能できることが示されました。
コード~\footnote{\url{https://github.com/CONE-MT/LLaMAX/.}} とモデル~\footnote{\url{https://huggingface.co/LLaMAX/.}} は公開されています
利用可能。

要約(オリジナル)

Large Language Models~(LLMs) demonstrate remarkable translation capabilities in high-resource language tasks, yet their performance in low-resource languages is hindered by insufficient multilingual data during pre-training. To address this, we dedicate 35,000 A100-SXM4-80GB GPU hours in conducting extensive multilingual continual pre-training on the LLaMA series models, enabling translation support across more than 100 languages. Through a comprehensive analysis of training strategies, such as vocabulary expansion and data augmentation, we develop LLaMAX. Remarkably, without sacrificing its generalization ability, LLaMAX achieves significantly higher translation performance compared to existing open-source LLMs~(by more than 10 spBLEU points) and performs on-par with specialized translation model~(M2M-100-12B) on the Flores-101 benchmark. Extensive experiments indicate that LLaMAX can serve as a robust multilingual foundation model. The code~\footnote{\url{https://github.com/CONE-MT/LLaMAX/.}} and models~\footnote{\url{https://huggingface.co/LLaMAX/.}} are publicly available.

arxiv情報

著者 Yinquan Lu,Wenhao Zhu,Lei Li,Yu Qiao,Fei Yuan
発行日 2024-07-08 14:18:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク