Pruning Multilingual Large Language Models for Multilingual Inference

要約

多言語のバランスの取れたデータでトレーニングされた多言語大規模言語モデル (MLLM) は、英語主体のデータでトレーニングされた大規模言語モデルと比較して、英語以外の言語で優れたゼロショット学習パフォーマンスを示します。
しかし、英語と英語以外の言語の間のパフォーマンスの格差は、まだ十分に解決されていない課題として残っています。
MLLM の際立った特徴は、高品質の翻訳能力であり、言語間の調整において習得された熟練度を示しています。
この研究では、英語と英語以外の言語間の調整機能を活用して、英語以外の言語での MLLM のゼロショット パフォーマンスを向上させる方法を検討します。
これを達成するために、まず翻訳実行時の MLLM の動作を分析し、翻訳プロセスで重要な役割を果たす大きな特徴があることを明らかにします。
これらの発見に触発されて、大きな振幅の特徴を含む操作に関連付けられた重みを保持し、他の重みを削除して、MLLM が翻訳を超えたタスクでこれらの特徴に依存するように強制します。
我々は、この枝刈り戦略が非英語言語における MLLM のパフォーマンスを向上させることができることを経験的に示しています。

要約(オリジナル)

Multilingual large language models (MLLMs), trained on multilingual balanced data, demonstrate better zero-shot learning performance in non-English languages compared to large language models trained on English-dominant data. However, the disparity in performance between English and non-English languages remains a challenge yet to be fully addressed. A distinctive characteristic of MLLMs is their high-quality translation capabilities, indicating an acquired proficiency in aligning between languages. This study explores how to enhance the zero-shot performance of MLLMs in non-English languages by leveraging their alignment capability between English and non-English languages. To achieve this, we first analyze the behavior of MLLMs when performing translation and reveal that there are large magnitude features that play a critical role in the translation process. Inspired by these findings, we retain the weights associated with operations involving the large magnitude features and prune other weights to force MLLMs to rely on these features for tasks beyond translation. We empirically demonstrate that this pruning strategy can enhance the MLLMs’ performance in non-English language.

arxiv情報

著者 Hwichan Kim,Jun Suzuki,Tosho Hirasawa,Mamoru Komachi
発行日 2024-09-25 13:15:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク