$FastDoc$: Domain-Specific Fast Continual Pre-training Technique using Document-Level Metadata and Taxonomy

要約

本論文では、$FastDoc$(Fast Continual Pre-training Technique using Document Level Metadata and Taxonomy)を提案する。これは、文書メタデータとドメイン固有タクソノミーを監視信号として利用し、ドメイン固有コーパス上で変換エンコーダの事前学習を継続的に行う、計算効率の良い新しいフレームワークである。主な革新点は、ドメインに特化した事前学習において、オープンドメインのエンコーダは(長い文書に対応するために)文レベルの埋め込みを入力として継続的に事前学習されるが、微調整はこのエンコーダの入力としてトークンレベルの埋め込みを用いて行われることである。このようなドメイン固有の事前学習を、カスタマーサポート、科学、法律の3つの異なるドメインで行い、6つの異なる下流タスクと9つの異なるデータセットで性能を比較する。文書レベルの監視と文レベルの埋め込み入力を事前学習に用いることで、顧客サポート、科学、法律の各領域において、MLMやNSPと比較して、事前学習の計算量をそれぞれ$1,000$、$4,500$、$500$削減できる。学習時間の短縮は性能の劣化にはつながらない。実際、$FastDoc$は、カスタマサポート、科学、法律の各領域において、文字レベルのF1スコアや他の自動化指標において、いくつかの競合する変換器ベースのベースラインよりも優れているか、同等であることを示す。さらに、トレーニングを減らすことで、致命的な忘却のリスクを軽減することができる。このように、$FastDoc$はベースラインとは異なり、オープンドメインでの性能低下はごくわずかである。

要約(オリジナル)

In this paper, we propose $FastDoc$ (Fast Continual Pre-training Technique using Document Level Metadata and Taxonomy), a novel, compute-efficient framework that utilizes Document metadata and Domain-Specific Taxonomy as supervision signals to continually pre-train transformer encoder on a domain-specific corpus. The main innovation is that during domain-specific pretraining, an open-domain encoder is continually pre-trained using sentence-level embeddings as inputs (to accommodate long documents), however, fine-tuning is done with token-level embeddings as inputs to this encoder. We perform such domain-specific pre-training on three different domains namely customer support, scientific, and legal domains, and compare performance on 6 different downstream tasks and 9 different datasets. The novel use of document-level supervision along with sentence-level embedding input for pre-training reduces pre-training compute by around $1,000$, $4,500$, and $500$ times compared to MLM and/or NSP in Customer Support, Scientific, and Legal Domains, respectively. The reduced training time does not lead to a deterioration in performance. In fact we show that $FastDoc$ either outperforms or performs on par with several competitive transformer-based baselines in terms of character-level F1 scores and other automated metrics in the Customer Support, Scientific, and Legal Domains. Moreover, reduced training aids in mitigating the risk of catastrophic forgetting. Thus, unlike baselines, $FastDoc$ shows a negligible drop in performance on open domain.

arxiv情報

著者 Abhilash Nandy,Manav Nitin Kapadnis,Sohan Patnaik,Yash Parag Butala,Pawan Goyal,Niloy Ganguly
発行日 2024-11-01 07:53:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T50, cs.CL, cs.LG, I.2.7 パーマリンク