Mixture-of-Domain-Adapters: Decoupling and Injecting Domain Knowledge to Pre-trained Language Models Memories

要約

事前トレーニングされた言語モデル (PLM) は、特定のドメインで苦労しながらも、一般的なドメインのテキストを理解する優れた能力を示します。
大規模なドメイン固有のコーパスで事前トレーニングを継続することは効果的ですが、ドメイン上のすべてのパラメーターを調整するにはコストがかかります。
このペーパーでは、いくつかのパラメータを調整するだけで PLM を効果的かつ効率的に適応できるかどうかを調査します。
具体的には、Transformer アーキテクチャのフィードフォワード ネットワーク (FFN) を 2 つの部分に分離します。古いドメインの知識を維持するための元の事前トレーニング済み FFN と、ドメイン固有の知識を並行して注入するための新しいドメイン固有のアダプターです。
次に、アダプター混合ゲートを採用して、さまざまなドメイン アダプターからの知識を動的に融合します。
私たちが提案する Mixture-of-Domain-Adapters (MixDA) は、ラベルなしデータとラベル付きデータの両方を活用してドメイン適応を支援する 2 段階のアダプター調整戦略を採用しています。 i) ラベルなしデータのドメイン固有アダプター。
ii) ラベル付きデータのタスク固有のアダプターが続きます。
MixDA は事前トレーニング微調整パラダイムにシームレスに接続でき、私たちの実験では、MixDA がドメイン内タスク (GLUE)、ドメイン外タスク (ChemProt、RCT、IMDB、Amazon)、および知識集約型タスクで優れたパフォーマンスを達成することを示しています。
(キルト)。
さらなる分析により、私たちの方法の信頼性、拡張性、効率性が実証されています。
コードは https://github.com/Amano-Aki/Mixture-of-Domain-Adapters で入手できます。

要約(オリジナル)

Pre-trained language models (PLMs) demonstrate excellent abilities to understand texts in the generic domain while struggling in a specific domain. Although continued pre-training on a large domain-specific corpus is effective, it is costly to tune all the parameters on the domain. In this paper, we investigate whether we can adapt PLMs both effectively and efficiently by only tuning a few parameters. Specifically, we decouple the feed-forward networks (FFNs) of the Transformer architecture into two parts: the original pre-trained FFNs to maintain the old-domain knowledge and our novel domain-specific adapters to inject domain-specific knowledge in parallel. Then we adopt a mixture-of-adapters gate to fuse the knowledge from different domain adapters dynamically. Our proposed Mixture-of-Domain-Adapters (MixDA) employs a two-stage adapter-tuning strategy that leverages both unlabeled data and labeled data to help the domain adaptation: i) domain-specific adapter on unlabeled data; followed by ii) the task-specific adapter on labeled data. MixDA can be seamlessly plugged into the pretraining-finetuning paradigm and our experiments demonstrate that MixDA achieves superior performance on in-domain tasks (GLUE), out-of-domain tasks (ChemProt, RCT, IMDB, Amazon), and knowledge-intensive tasks (KILT). Further analyses demonstrate the reliability, scalability, and efficiency of our method. The code is available at https://github.com/Amano-Aki/Mixture-of-Domain-Adapters.

arxiv情報

著者 Shizhe Diao,Tianyang Xu,Ruijia Xu,Jiawei Wang,Tong Zhang
発行日 2023-06-08 17:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク