要約
最近では、ChatGPT に代表される大規模言語モデル (LLM) で大幅な進歩が見られ、さまざまな複雑なタスクにわたって顕著な熟練度が示されています。
ただし、多くの主流 LLM (LLaMA など) は英語が主流のコーパスで事前トレーニングされているため、英語以外の言語でのパフォーマンスが制限されます。
この論文では、言語生成と指示に従う能力を英語以外の言語に効果的に移行する方法に焦点を当てます。
この質問に答えるために、私たちは LLaMA に基づいて広範な実証調査を実施し、1,440 GPU 時間以上を蓄積しました。
私たちは、語彙の拡張、さらなる事前トレーニング、指導の調整などの主要な要素が編入に与える影響を分析します。
モデルの知識レベルを正確に評価するために、C-Eval、MMLU、AGI-Eval、GAOKAO-Bench という広く使用されている 4 つの標準化されたテスト ベンチマークを採用しています。
さらに、モデルの応答品質については、17 の多様なカテゴリの指示タスクから構成されるベンチマークである LLM-Eval に基づいて、精度、流暢性、情報提供性、論理的一貫性、無害性などの側面を考慮して総合的に評価されます。
私たちの評価結果は、知識の整合性と応答品質の両方の点で、1% 未満の事前トレーニング データで最先端の転送モデルと同等のパフォーマンスを達成できることを示しています。
さらに、13 の低リソース言語にわたる実験結果も同様の傾向を示しています。
私たちは、実験によって明らかになった結論が、コミュニティによる英語以外の LLM の開発に役立つことを期待しています。
要約(オリジナル)
In recent times, substantial advancements have been witnessed in large language models (LLMs), exemplified by ChatGPT, showcasing remarkable proficiency across a range of complex tasks. However, many mainstream LLMs (e.g. LLaMA) are pretrained on English-dominant corpus, which limits their performance in other non-English languages. In this paper, we focus on how to effectively transfer the capabilities of language generation and following instructions to a non-English language. To answer this question, we conduct an extensive empirical investigation based on LLaMA, accumulating over 1440 GPU hours. We analyze the impact of key factors such as vocabulary extension, further pretraining, and instruction tuning on transfer. To accurately assess the model’s level of knowledge, we employ four widely used standardized testing benchmarks: C-Eval, MMLU, AGI-Eval, and GAOKAO-Bench. Furthermore, a comprehensive evaluation of the model’s response quality is conducted, considering aspects such as accuracy, fluency, informativeness, logical coherence, and harmlessness, based on LLM-Eval, a benchmarks consisting instruction tasks from 17 diverse categories. Our evaluation results demonstrate that comparable performance to state-of-the-art transfer models can be achieved with less than 1% of the pretraining data, both in terms of knowledge alignment and response quality. Furthermore, the experimental outcomes across the thirteen low-resource languages also exhibit similar trends. We anticipate that the conclusions revealed by the experiments will aid the community in developing non-English LLMs.
arxiv情報
著者 | Jun Zhao,Zhihao Zhang,Qi Zhang,Tao Gui,Xuanjing Huang |
発行日 | 2024-01-02 06:29:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google