要約
統合された多言語モデルをトレーニングすると、知識の伝達が促進されますが、否定的な干渉が必然的に発生します。
言語固有のモデリング手法は、干渉を減らすことが期待できます。
ただし、容量を分散するためにヒューリスティックに依存することが多く、分離されたモジュールを介した言語間の転送を促進するのに苦労しています。
この論文では、多言語ネットワーク内の固有のタスクのモジュール性を調査し、これらの観察結果を活用して多言語翻訳時の干渉を回避します。
フィードフォワード層のニューロンは言語固有の方法で活性化される傾向があることを示します。
一方、これらの特殊化されたニューロンは、言語の近接性を反映する構造的な重複を示し、層を越えて進行します。
これらの発見に基づいて、私たちはニューロンの特化を提案します。これは、特殊化されたニューロンを特定してフィードフォワード層をモジュール化し、スパースネットワークを通じてそれらを継続的に更新するアプローチです。
広範な実験により、私たちのアプローチが強力なベースラインを超えて一貫したパフォーマンスの向上を達成し、追加の分析により干渉の減少と知識伝達の増加が実証されたことが示されています。
要約(オリジナル)
Training a unified multilingual model promotes knowledge transfer but inevitably introduces negative interference. Language-specific modeling methods show promise in reducing interference. However, they often rely on heuristics to distribute capacity and struggle to foster cross-lingual transfer via isolated modules. In this paper, we explore intrinsic task modularity within multilingual networks and leverage these observations to circumvent interference under multilingual translation. We show that neurons in the feed-forward layers tend to be activated in a language-specific manner. Meanwhile, these specialized neurons exhibit structural overlaps that reflect language proximity, which progress across layers. Based on these findings, we propose Neuron Specialization, an approach that identifies specialized neurons to modularize feed-forward layers and then continuously updates them through sparse networks. Extensive experiments show that our approach achieves consistent performance gains over strong baselines with additional analyses demonstrating reduced interference and increased knowledge transfer.
arxiv情報
著者 | Shaomu Tan,Di Wu,Christof Monz |
発行日 | 2024-04-17 09:33:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google