SkillNet-X: A Multilingual Multitask Model with Sparsely Activated Skills

要約

従来のマルチタスク学習方法は、基本的にタスクまたは言語に関する共通知識しか活用できず、言語間またはタスク間の知識が失われます。
この論文では、SkillNet-X という名前の一般的な多言語マルチタスク モデルを提案します。これにより、単一のモデルでさまざまな言語のさまざまなタスクに取り組むことができます。
この目的を達成するために、いくつかの言語固有のスキルとタスク固有のスキルを定義し、それぞれがスキル モジュールに対応します。
SkillNet-X は、ターゲット タスクまたはターゲット言語に関連するスキル モジュールの部分をまばらにアクティブにします。
スキルモジュールは知識伝達ハブとして機能し、タスク関連の知識と言語関連の知識を連続的に吸収できます。
Transformer に基づいて、スキル モジュールに対応するためにマルチヘッド アテンション レイヤーとフィードフォワード ネットワーク レイヤーを変更します。
私たちは、4 つの言語の 11 の自然言語理解データセットで SkillNet-X を評価します。
結果は、SkillNet-X がタスク固有のベースラインおよび 2 つのマルチタスク学習ベースライン (つまり、密結合モデルと専門家の混合モデル) よりも優れたパフォーマンスを発揮することを示しています。
さらに、スキルの事前トレーニングにより、ほぼすべてのデータセットでの SkillNet-X のパフォーマンスがさらに向上します。
モデルの一般化を調査するために、2 つの新しいタスクで実験を行ったところ、SkillNet-X がベースラインを大幅に上回るパフォーマンスを示したことがわかりました。

要約(オリジナル)

Traditional multitask learning methods basically can only exploit common knowledge in task- or language-wise, which lose either cross-language or cross-task knowledge. This paper proposes a general multilingual multitask model, named SkillNet-X, which enables a single model to tackle many different tasks from different languages. To this end, we define several language-specific skills and task-specific skills, each of which corresponds to a skill module. SkillNet-X sparsely activates parts of the skill modules which are relevant either to the target task or the target language. Acting as knowledge transit hubs, skill modules are capable of absorbing task-related knowledge and language-related knowledge consecutively. Based on Transformer, we modify the multi-head attention layer and the feed forward network layer to accommodate skill modules. We evaluate SkillNet-X on eleven natural language understanding datasets in four languages. Results show that SkillNet-X performs better than task-specific baselines and two multitask learning baselines (i.e., dense joint model and Mixture-of-Experts model). Furthermore, skill pre-training further improves the performance of SkillNet-X on almost all datasets. To investigate the generalization of our model, we conduct experiments on two new tasks and find that SkillNet-X significantly outperforms baselines.

arxiv情報

著者 Zhangyin Feng,Yong Dai,Fan Zhang,Duyu Tang,Xiaocheng Feng,Shuangzhi Wu,Bing Qin,Yunbo Cao,Shuming Shi
発行日 2023-06-28 12:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク