Efficient Domain Adaptation of Sentence Embeddings Using Adapters

要約

文の埋め込みにより、短いテキストの意味上の類似性を捉えることができます。
ほとんどの文埋め込みモデルは、一般的な意味論的なテキスト類似性タスク用にトレーニングされています。
したがって、特定のドメインで文の埋め込みを使用するには、良好な結果を達成するためにモデルをそれに適合させる必要があります。
通常、これは対象となるドメインの文全体の埋め込みモデルを微調整することによって行われます。
このアプローチでは最先端の結果が得られますが、微調整中にモデルの重みがすべて更新されるため、この方法はリソースを大量に消費します。
したがって、ターゲットドメインごとに文全体の埋め込みモデルを個別に微調整する代わりに、軽量アダプターをトレーニングすることを提案します。
これらのドメイン固有のアダプターでは、すべての基礎となる文埋め込みモデル パラメーターを微調整する必要はありません。
代わりに、基礎となる文埋め込みモデルの重みを固定したまま、少数の追加パラメーターのみをトレーニングします。
ドメイン固有のアダプターをトレーニングすると、常に同じ基本モデルを使用し、ドメイン固有のアダプターを交換するだけで文の埋め込みを特定のドメインに適応させることができます。
文埋め込みのパラメータ効率の高いドメイン適応にアダプタを使用すると、パラメータの約 3.6% のみをトレーニングしながら、ドメインに適応し、完全に微調整された文埋め込みモデルの 1% 以内で競争力のあるパフォーマンスが得られることを示します。

要約(オリジナル)

Sentence embeddings enable us to capture the semantic similarity of short texts. Most sentence embedding models are trained for general semantic textual similarity tasks. Therefore, to use sentence embeddings in a particular domain, the model must be adapted to it in order to achieve good results. Usually, this is done by fine-tuning the entire sentence embedding model for the domain of interest. While this approach yields state-of-the-art results, all of the model’s weights are updated during fine-tuning, making this method resource-intensive. Therefore, instead of fine-tuning entire sentence embedding models for each target domain individually, we propose to train lightweight adapters. These domain-specific adapters do not require fine-tuning all underlying sentence embedding model parameters. Instead, we only train a small number of additional parameters while keeping the weights of the underlying sentence embedding model fixed. Training domain-specific adapters allows always using the same base model and only exchanging the domain-specific adapters to adapt sentence embeddings to a specific domain. We show that using adapters for parameter-efficient domain adaptation of sentence embeddings yields competitive performance within 1% of a domain-adapted, entirely fine-tuned sentence embedding model while only training approximately 3.6% of the parameters.

arxiv情報

著者 Tim Schopf,Dennis N. Schneider,Florian Matthes
発行日 2023-08-28 08:11:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク