AdaSent: Efficient Domain-Adapted Sentence Embeddings for Few-Shot Classification

要約

最近の研究では、事前にトレーニングされたセンテンス エンコーダ (SE) に基づく少数ショットのセンテンス分類が効率的で堅牢かつ効果的であることが判明しました。
この研究では、SE による少数ショット文分類のコンテキストでドメイン特化のための戦略を調査します。
まず、ベースの事前トレーニング済み言語モデル (PLM) (つまり、SE ではない) の教師なしドメイン適応型事前トレーニング (DAPT) によって、少数ショット文分類の精度が最大 8.4 ポイント大幅に向上することを確立します。
ただし、SE に DAPT を適用すると、その (一般領域の) 文埋め込み事前トレーニング (SEPT) の効果が妨げられます。
一方、一般ドメインの SEPT をドメインに適応したベース PLM の上に (つまり、DAPT の後) 適用することは効果的ではありますが、非効率的です。これは、計算コストの高い SEPT を各ドメインの DAPT 化された PLM の上で実行する必要があるためです。

解決策として、ベース PLM 上で SEPT アダプターをトレーニングすることで SEPT を DAPT から分離する AdaSent を提案します。
アダプターは、任意のドメインから DAPT 化 PLM に挿入できます。
私たちは、17 の異なる少数ショット文分類データセットに対する広範な実験で AdaSent の有効性を実証しました。
AdaSent は、トレーニング コストを大幅に削減しながら、DAPT 化 PLM 上の完全な SEPT のパフォーマンスと同等またはそれを上回ります。
AdaSent のコードが利用可能です。

要約(オリジナル)

Recent work has found that few-shot sentence classification based on pre-trained Sentence Encoders (SEs) is efficient, robust, and effective. In this work, we investigate strategies for domain-specialization in the context of few-shot sentence classification with SEs. We first establish that unsupervised Domain-Adaptive Pre-Training (DAPT) of a base Pre-trained Language Model (PLM) (i.e., not an SE) substantially improves the accuracy of few-shot sentence classification by up to 8.4 points. However, applying DAPT on SEs, on the one hand, disrupts the effects of their (general-domain) Sentence Embedding Pre-Training (SEPT). On the other hand, applying general-domain SEPT on top of a domain-adapted base PLM (i.e., after DAPT) is effective but inefficient, since the computationally expensive SEPT needs to be executed on top of a DAPT-ed PLM of each domain. As a solution, we propose AdaSent, which decouples SEPT from DAPT by training a SEPT adapter on the base PLM. The adapter can be inserted into DAPT-ed PLMs from any domain. We demonstrate AdaSent’s effectiveness in extensive experiments on 17 different few-shot sentence classification datasets. AdaSent matches or surpasses the performance of full SEPT on DAPT-ed PLM, while substantially reducing the training costs. The code for AdaSent is available.

arxiv情報

著者 Yongxin Huang,Kexin Wang,Sourav Dutta,Raj Nath Patel,Goran Glavaš,Iryna Gurevych
発行日 2023-11-01 10:00:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク