Examining Modularity in Multilingual LMs via Language-Specialized Subnetworks

要約

最近の研究では、言語間の共有をより適切に導く手段として、言語ごとのサブネットワーク上でスパース微調整 (SFT) を介して多言語 LM に言語ごとのモジュール性を明示的に導入することが提案されています。
この研究では、(1) 特別なモジュール性の介入がないモデル内で言語に関するモジュール性がどの程度自然に生じるか、(2) 言語間の共有と干渉がそのようなモデルと明示的な SFT ガイド付きサブネットワークを備えたモデルとの間でどのように異なるかを調査します。
モジュール性。
言語の専門化と言語間の相互作用を定量化するために、モデルの予測が言語内または言語間のトレーニング例によってどの程度影響を受けるかを推定するトレーニング データ アトリビューション手法を使用します。
私たちの結果は、言語に特化したサブネットワークが自然に発生すること、そして SFT は常にモジュール性を高めるのではなく、より言語間の共有を優先してサブネットワークの言語特化を減らすことができることを示しています。

要約(オリジナル)

Recent work has proposed explicitly inducing language-wise modularity in multilingual LMs via sparse fine-tuning (SFT) on per-language subnetworks as a means of better guiding cross-lingual sharing. In this work, we investigate (1) the degree to which language-wise modularity naturally arises within models with no special modularity interventions, and (2) how cross-lingual sharing and interference differ between such models and those with explicit SFT-guided subnetwork modularity. To quantify language specialization and cross-lingual interaction, we use a Training Data Attribution method that estimates the degree to which a model’s predictions are influenced by in-language or cross-language training examples. Our results show that language-specialized subnetworks do naturally arise, and that SFT, rather than always increasing modularity, can decrease language specialization of subnetworks in favor of more cross-lingual sharing.

arxiv情報

著者 Rochelle Choenni,Ekaterina Shutova,Dan Garrette
発行日 2023-11-14 16:11:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク