Targeted Lexical Injection: Unlocking Latent Cross-Lingual Alignment in Lugha-Llama via Early-Layer LoRA Fine-Tuning

要約

大規模な言語モデル(LLM)は顕著な能力を実証していますが、スワヒリ語などの低リソース言語(LRL)でのパフォーマンスは、しばしばデータ不足と前訓練における過小評価のために遅れています。
重要な課題は、翻訳や横断的情報の検索などのタスクにとって重要な、堅牢な舌側の語彙のアライメントを達成することです。
このペーパーでは、ターゲットを絞った語彙注射(TLI)を紹介します。これは、斬新で効率的な微調整アプローチです。
スワヒリ語中心のLLMであるLugha-llama-8b-Wuraは、初期の内部層のスワヒリ語と英語のワードペアに対して強力でほぼ完璧な語彙アライメントを示すことを実証します(具体的には層2、パイロット研究に基づく0.99998平均コサインの類似性があります)。
セット)。
TLIは、低ランクの適応(LORA)とモデルを微調整するための対照的な学習目標を使用して、この洞察を活用し、特にこの経験的に特定された最適な初期層からの埋め込みをターゲットにしています。
私たちの実験は、TLIが623の訓練されたスワヒリ語と英語のペアの出力レベルの語彙アライメントを大幅に改善し、0.3211から0.4113(+28.08%、p <1.33 x 10^-240)に平均コサイン類似性を高めることを示しています。 さらに重要なことに、これらの改善は、63の目に見えないコントロールワードペアに非常によく一般化され、類似性は0.3143から0.4033(+28.32%、p <7.17 x 10^-27)に増加します。 これらの調査結果は、TLIが、その固有の初期層間横断的知識を保存および伝播するモデルの能力を高めることを示唆しており、LRLに焦点を当てたLLMSの語彙アライメントを改善するためのパラメーター効率の高い効果的な戦略を提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities, yet their performance in low-resource languages (LRLs), such as Swahili, often lags due to data scarcity and underrepresentation in pre-training. A key challenge is achieving robust cross-lingual lexical alignment, crucial for tasks like translation and cross-lingual information retrieval. This paper introduces Targeted Lexical Injection (TLI), a novel and efficient fine-tuning approach. We first demonstrate that Lugha-Llama-8B-wura, a Swahili-centric LLM, exhibits strong, near-perfect lexical alignment for Swahili-English word pairs in its early internal layers (specifically Layer 2, with ~0.99998 average cosine similarity based on a pilot study), a capability not fully reflected in its final output representations (baseline ~0.32 similarity on our evaluation set). TLI leverages this insight by using Low-Rank Adaptation (LoRA) and a contrastive learning objective to fine-tune the model, specifically targeting embeddings from this empirically identified optimal early layer. Our experiments show that TLI significantly improves the output-level lexical alignment for 623 trained Swahili-English word pairs, increasing average cosine similarity from 0.3211 to 0.4113 (+28.08%, p < 1.33 x 10^-240). More importantly, these improvements generalize remarkably well to 63 unseen control word pairs, with similarity increasing from 0.3143 to 0.4033 (+28.32%, p < 7.17 x 10^-27). These findings suggest TLI enhances the model's ability to preserve and propagate its inherent early-layer cross-lingual knowledge, offering a parameter-efficient and effective strategy for improving lexical alignment in LRL-focused LLMs.

arxiv情報

著者 Stanley Ngugi
発行日 2025-06-18 12:35:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.6 パーマリンク