Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs

要約

大規模な言語モデルは、微調整を通じてタスク固有のアプリケーションで顕著な能力を示していますが、さまざまな言語全体にこれらの利点を拡大することが幅広いアクセシビリティに不可欠です。
ただし、言語間のLLMパフォーマンスのギャップと、多くの言語での微調整データの希少性によって、効果的な横断転送が妨げられています。
1,000以上の言語ペアからのLLM内部表現の分析を通じて、中間層が横断的なアライメントの最も強力な可能性を示すことがわかります。
この発見に基づいて、タスク固有のトレーニングに統合された中間層アライメント目標を提案します。
スロットの充填、機械翻訳、および構造化されたテキスト生成に関する実験は、特にリソース言語の低い言語に対する一貫した改善を示しています。
この方法は、アライメント言語の選択に堅牢であり、アラインメント中に目にされていない言語に一般化します。
さらに、個別にトレーニングされたアライメントモジュールを既存のタスク固有のモジュールと統合して、完全な再トレーニングなしで横断的機能を改善できることを示します。
私たちのコードは公開されています(https://github.com/dannigt/mid-align)。

要約(オリジナル)

While large language models demonstrate remarkable capabilities at task-specific applications through fine-tuning, extending these benefits across diverse languages is essential for broad accessibility. However, effective cross-lingual transfer is hindered by LLM performance gaps across languages and the scarcity of fine-tuning data in many languages. Through analysis of LLM internal representations from over 1,000+ language pairs, we discover that middle layers exhibit the strongest potential for cross-lingual alignment. Building on this finding, we propose a middle-layer alignment objective integrated into task-specific training. Our experiments on slot filling, machine translation, and structured text generation show consistent improvements in cross-lingual transfer, especially to lower-resource languages. The method is robust to the choice of alignment languages and generalizes to languages unseen during alignment. Furthermore, we show that separately trained alignment modules can be merged with existing task-specific modules, improving cross-lingual capabilities without full re-training. Our code is publicly available (https://github.com/dannigt/mid-align).

arxiv情報

著者 Danni Liu,Jan Niehues
発行日 2025-02-20 18:45:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク