要約
モデルスープなどのモデルのマージは、さらにトレーニングをせずに異なるモデルと同じアーキテクチャを組み合わせる実践です。
この作業では、タスク固有のデータがしばしば利用できない英語言語では、ターゲットタスクの大規模な言語モデル(LLM)を微調整することの難しさに対処するモデルマージ方法論を提示します。
私たちは数学的な推論に焦点を当て、言語内の数学データなしで、言語と数学の能力を構成することにより、横断的な転送を促進します。
同じ前提条件のモデルから始めて、英語の数学指導データとターゲット言語の一般的な指導データに関する個別の「専門家」を微調整します。
次に、数学の専門家の上部と下部の変圧器層を、言語の専門家からの層に直接置き換えます。これにより、ターゲット言語の数学のパフォーマンスが向上します。
結果のマージされたモデルは、数学のベンチマークであるMGSMの個々の専門家やその他のマージメソッドを、数学指導データが不足している4つの主要言語で10%上回ります。
さらに、このレイヤースワッピングは、各専門家の微調整中の最も重要なパラメーターの変化の解釈分析に基づいているため、シンプルで安価で直感的です。
この方法で横断的転送のためにLLMSを成功させる能力は、モデルの専門知識を組み合わせ、モジュール式ソリューションを作成し、言語間で推論機能をすべて事後に組み合わせて、将来の可能性を開きます。
要約(オリジナル)
Model merging, such as model souping, is the practice of combining different models with the same architecture together without further training. In this work, we present a model merging methodology that addresses the difficulty of fine-tuning Large Language Models (LLMs) for target tasks in non-English languages, where task-specific data is often unavailable. We focus on mathematical reasoning and without in-language math data, facilitate cross-lingual transfer by composing language and math capabilities. Starting from the same pretrained model, we fine-tune separate ‘experts’ on math instruction data in English and on generic instruction data in the target language. We then replace the top and bottom transformer layers of the math expert directly with layers from the language expert, which consequently enhances math performance in the target language. The resulting merged models outperform the individual experts and other merging methods on the math benchmark, MGSM, by 10% across four major languages where math instruction data is scarce. In addition, this layer swapping is simple, inexpensive, and intuitive, as it is based on an interpretative analysis of the most important parameter changes during the fine-tuning of each expert. The ability to successfully re-compose LLMs for cross-lingual transfer in this manner opens up future possibilities to combine model expertise, create modular solutions, and transfer reasoning capabilities across languages all post hoc.
arxiv情報
著者 | Lucas Bandarkar,Benjamin Muller,Pritish Yuvraj,Rui Hou,Nayan Singhal,Hongjiang Lv,Bing Liu |
発行日 | 2025-03-04 18:15:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google