MindMerger: Efficient Boosting LLM Reasoning in non-English Languages

要約

推論機能は大規模言語モデル (LLM) にとって重要ですが、英語と英語以外の言語の間には顕著なギャップが存在します。
この格差を埋めるために、LLM を微調整して英語以外の言語での推論能力を再学習する取り組みもあれば、英語以外の入力を英語の翻訳テキストなどの外部モデルの出力に置き換えて、英語以外の言語を理解する LLM の課題を回避する取り組みもあります。
残念ながら、これらの方法では、LLM に組み込まれている熟練した推論機能と有用な言語理解機能が十分に活用されていないことがよくあります。
LLM の推論と言語理解の心をより良く活用するために、我々は、LLM を多言語モデルからの外部言語理解機能とマージして多言語推論のパフォーマンスを向上させる新しい方法、すなわち MindMerger を提案します。
さらに、2 段階のトレーニング スキームが導入され、最初に外部機能を LLM に組み込むトレーニングを行い、次に外部機能と LLM の組み込み機能を共同利用するトレーニングを行います。
3 つの多言語推論データセットと 1 つの言語理解データセットの実験では、特に低リソース言語において、MindMerger が一貫してすべてのベースラインを上回るパフォーマンスを示しています。
LLM のパラメーターを更新しないと、MGSM データセット上のすべての言語と低リソース言語で平均精度がそれぞれ 6.7% と 8.0% 向上しました。

要約(オリジナル)

Reasoning capabilities are crucial for Large Language Models (LLMs), yet a notable gap exists between English and non-English languages. To bridge this disparity, some works fine-tune LLMs to relearn reasoning capabilities in non-English languages, while others replace non-English inputs with an external model’s outputs such as English translation text to circumvent the challenge of LLM understanding non-English. Unfortunately, these methods often underutilize the built-in skilled reasoning and useful language understanding capabilities of LLMs. In order to better utilize the minds of reasoning and language understanding in LLMs, we propose a new method, namely MindMerger, which merges LLMs with the external language understanding capabilities from multilingual models to boost the multilingual reasoning performance. Furthermore, a two-step training scheme is introduced to first train to embeded the external capabilities into LLMs and then train the collaborative utilization of the external capabilities and the built-in capabilities in LLMs. Experiments on three multilingual reasoning datasets and a language understanding dataset demonstrate that MindMerger consistently outperforms all baselines, especially in low-resource languages. Without updating the parameters of LLMs, the average accuracy improved by 6.7% and 8.0% across all languages and low-resource languages on the MGSM dataset, respectively.

arxiv情報

著者 Zixian Huang,Wenhao Zhu,Gong Cheng,Lei Li,Fei Yuan
発行日 2024-05-27 17:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク