要約
大規模言語モデル (LLM) は、分類およびテキスト生成タスクにおいて大きな進歩を遂げました。
ただし、彼らは主に英語のデータでトレーニングされており、リソースの少ない言語では苦労することがよくあります。
この研究では、パラメーター効率の高い微調整を使用して、新しい言語、つまりペルシア語を Llama (ペルシア語の理解が限られているモデル) に追加することを検討します。
私たちは、単言語ペルシア語データでの事前トレーニング、二言語事前トレーニングと命令データセットによる表現の調整、タスク固有のデータセットによる命令チューニングを含む多段階アプローチを採用しています。
生成および分類タスクの各段階でモデルのパフォーマンスを評価します。
私たちの調査結果は、バイリンガルデータの調整を通じてペルシア語を組み込むと、英語のタスクに悪影響を与えることなく、場合によっては改善するだけで、ペルシア語のタスクの分類精度を高めることができることを示唆しています。
さらに、この結果は、限られたトレーニング データを扱う場合、モデルの初期強度が重要な要素であることを強調しており、言語間の調整によりリソースの少ない言語には最小限のメリットがもたらされます。
英語からペルシア語への知識の伝達はわずかな効果しかありませんが、主に単純な分類タスクに利益をもたらします。
要約(オリジナル)
Large language models (LLMs) have made great progress in classification and text generation tasks. However, they are mainly trained on English data and often struggle with low-resource languages. In this study, we explore adding a new language, i.e., Persian, to Llama (a model with a limited understanding of Persian) using parameter-efficient fine-tuning. We employ a multi-stage approach involving pretraining on monolingual Persian data, aligning representations through bilingual pretraining and instruction datasets, and instruction-tuning with task-specific datasets. We evaluate the model’s performance at each stage on generation and classification tasks. Our findings suggest that incorporating the Persian language, through bilingual data alignment, can enhance classification accuracy for Persian tasks, with no adverse impact and sometimes even improvements on English tasks. Additionally, the results highlight the model’s initial strength as a critical factor when working with limited training data, with cross-lingual alignment offering minimal benefits for the low-resource language. Knowledge transfer from English to Persian has a marginal effect, primarily benefiting simple classification tasks.
arxiv情報
著者 | Samin Mahdizadeh Sani,Pouya Sadeghi,Thuy-Trang Vu,Yadollah Yaghoobzadeh,Gholamreza Haffari |
発行日 | 2025-01-08 14:41:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google