要約
大規模な言語モデル(LLM)は、多言語の言語の理解と生成に大きな進歩を示しています。
ただし、トレーニングデータの不均衡により、英語以外の言語での機能は限られています。
最近の研究では、LLMSの英語のピボット多言語メカニズムが明らかになりました。LLMは、英語以外のクエリを最下層の英語のクエリに暗黙的に変換し、中間層で考えるために英語を採用しました。
ただし、LLMの中間層における横断的整合の明示的な監督が存在しないため、これらの段階の内部表現は不正確になる可能性があります。
この作業では、ワークフローを導くためにモデルの内部層に追加の監督が組み込まれた深い監督微調整法(DFT)を紹介します。
具体的には、LLMSの異なるレイヤーに2つのトレーニング目標を紹介します。1つはターゲット言語の英語への変換を制限するための最下層に、もう1つは英語で推論を制限するために中間層に制限します。
指針を効果的に達成するために、2種類の監督シグナルを設計しました。これは、より厳しい制約と比較的リラックスしたガイダンスを表すロジットと機能です。
私たちの方法は、英語以外の入力を処理する際に最終生成結果を考慮するだけでなく、内部表現の精度を確保するためにモデルを導きます。
典型的な英語中心の大型モデルであるLlama-2およびGemma-2で広範な実験を実施しましたが、複数の多言語データセットの結果は、この方法が従来の微調整方法を大幅に上回ることを示しています。
要約(オリジナル)
Large language models (LLMs) have demonstrated significant progress in multilingual language understanding and generation. However, due to the imbalance in training data, their capabilities in non-English languages are limited. Recent studies revealed the English-pivot multilingual mechanism of LLMs, where LLMs implicitly convert non-English queries into English ones at the bottom layers and adopt English for thinking at the middle layers. However, due to the absence of explicit supervision for cross-lingual alignment in the intermediate layers of LLMs, the internal representations during these stages may become inaccurate. In this work, we introduce a deep supervision fine-tuning method (DFT) that incorporates additional supervision in the internal layers of the model to guide its workflow. Specifically, we introduce two training objectives on different layers of LLMs: one at the bottom layers to constrain the conversion of the target language into English, and another at the middle layers to constrain reasoning in English. To effectively achieve the guiding purpose, we designed two types of supervision signals: logits and feature, which represent a stricter constraint and a relatively more relaxed guidance. Our method guides the model to not only consider the final generated result when processing non-English inputs but also ensure the accuracy of internal representations. We conducted extensive experiments on typical English-centric large models, LLaMA-2 and Gemma-2, and the results on multiple multilingual datasets show that our method significantly outperforms traditional fine-tuning methods.
arxiv情報
著者 | Wenshuai Huo,Xiaocheng Feng,Yichong Huang,Chengpeng Fu,Baohang Li,Yangfan Ye,Zhirui Zhang,Dandan Tu,Duyu Tang,Yunfei Lu,Hui Wang,Bing Qin |
発行日 | 2025-03-05 13:10:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google