Language Imbalance Driven Rewarding for Multilingual Self-improving

要約

大規模言語モデル (LLM) は、多数のタスクにわたって最先端のパフォーマンスを達成しました。
しかし、これらの進歩は主に英語や中国語などの「第一級」言語に恩恵をもたらし、他の多くの言語は過小評価されています。
この不均衡により、より広範なアプリケーションが制限される一方で、言語間の自然な優先順位が生成され、自己改善的な方法で LLM の多言語機能をブートストラップする機会が提供されます。
したがって、我々は $\textit{Language Imbalance Driven Rewarding}$ を提案します。LLM 内の主要な言語と非主要な言語間の固有の不均衡が報酬シグナルとして利用されます。
反復的な DPO トレーニングは、このアプローチが非支配的な言語での LLM パフォーマンスを向上させるだけでなく、支配的な言語の能力も向上させ、それによって反復的な報酬シグナルを生成することを示しています。
このアプローチを 2 回反復して Meta-Llama-3-8B-Instruct を微調整すると、指示に従うタスクと算術推論タスク全体で多言語パフォーマンスが継続的に向上しました。これは、X-AlpacaEval リーダーボードでの平均勝率が 7.46% 向上したことで証明されています。
MGSM ベンチマークでは 13.9% の精度です。
この作業は最初の調査として機能し、LLM の多言語自己改善への道を切り開きます。

要約(オリジナル)

Large Language Models (LLMs) have achieved state-of-the-art performance across numerous tasks. However, these advancements have predominantly benefited ‘first-class’ languages such as English and Chinese, leaving many other languages underrepresented. This imbalance, while limiting broader applications, generates a natural preference ranking between languages, offering an opportunity to bootstrap the multilingual capabilities of LLM in a self-improving manner. Thus, we propose $\textit{Language Imbalance Driven Rewarding}$, where the inherent imbalance between dominant and non-dominant languages within LLMs is leveraged as a reward signal. Iterative DPO training demonstrates that this approach not only enhances LLM performance in non-dominant languages but also improves the dominant language’s capacity, thereby yielding an iterative reward signal. Fine-tuning Meta-Llama-3-8B-Instruct over two iterations of this approach results in continuous improvements in multilingual performance across instruction-following and arithmetic reasoning tasks, evidenced by an average improvement of 7.46% win rate on the X-AlpacaEval leaderboard and 13.9% accuracy on the MGSM benchmark. This work serves as an initial exploration, paving the way for multilingual self-improvement of LLMs.

arxiv情報

著者	Wen Yang,Junhong Wu,Chen Wang,Chengqing Zong,Jiajun Zhang
発行日	2024-10-11 16:32:05+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Language Imbalance Driven Rewarding for Multilingual Self-improving

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー