Continual Pre-training of Language Models

要約

タイトル:言語モデルの継続的事前学習
要約:
– 言語モデル(LMs)は、自然言語処理の急速な進歩に重要な役割を果たしています。
– 本論文は、特に継続的ドメイン適応事前学習(または継続的DAPトレーニング)に焦点を当て、LMsの継続的な事前学習を研究する。
– 既存研究により、ドメインコーパスを使用してLMをドメインに適応させることで、ドメイン内の最終タスクのパフォーマンスを改善できることが示されています。
– 本論文では、一連の無標識ドメインコーパスを使用して、LMをこれらのドメインに適応させ、最終タスクのパフォーマンスを改善する継続的DAPトレーニング方法を提案します。
– 提案手法の主な新しさは、LMへのアップデートを直接制御するソフトマスキングメカニズムです。
– また、オリジナルのLMの一般的な知識を保持するための新しいプロキシも提案されています。
– さらに、先に学習したドメイン知識(事前学習されたLMの一般的な知識を含む)と現在のフルネットワークからの知識との表現を対比させ、知識統合を実現します。
– この方法は、カタストロフィックフォーゲッティングを克服するだけでなく、最終タスクのパフォーマンスを改善するための知識転移を実現します。
– 実験評価により、提案手法の有効性が示されています。

要約(オリジナル)

Language models (LMs) have been instrumental for the rapid advance of natural language processing. This paper studies continual pre-training of LMs, in particular, continual domain-adaptive pre-training (or continual DAP-training). Existing research has shown that further pre-training an LM using a domain corpus to adapt the LM to the domain can improve the end-task performance in the domain. This paper proposes a novel method to continually DAP-train an LM with a sequence of unlabeled domain corpora to adapt the LM to these domains to improve their end-task performances. The key novelty of our method is a soft-masking mechanism that directly controls the update to the LM. A novel proxy is also proposed to preserve the general knowledge in the original LM. Additionally, it contrasts the representations of the previously learned domain knowledge (including the general knowledge in the pre-trained LM) and the knowledge from the current full network to achieve knowledge integration. The method not only overcomes catastrophic forgetting, but also achieves knowledge transfer to improve end-task performances. Empirical evaluation demonstrates the effectiveness of the proposed method.

arxiv情報

著者 Zixuan Ke,Yijia Shao,Haowei Lin,Tatsuya Konishi,Gyuhak Kim,Bing Liu
発行日 2023-04-12 10:36:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE パーマリンク