DALLMi: Domain Adaption for LLM-based Multi-label Classifier

要約

大規模言語モデル(LLM)は、異なるドメインと同時に複数のラベル(クラス)に関連するテキストを分類するためのバックボーンとしての役割を果たすようになってきている。例えば、IMDbからRotten Tomatoesへの映画レビューの分類器のようなドメインシフトに遭遇した場合、LLMベースのマルチラベル分類器を適応させることは、ターゲットドメインでの不完全なラベルセットと膨大な学習オーバーヘッドのために困難です。既存のドメイン適応手法は、画像マルチラベル分類器かテキストバイナリ分類器のいずれかに対応している。本論文では、DALLMi(Domain Adaptation Large Language Model interpolator)を設計する。DALLMiは、LLM、特にBERTに基づくテキストデータモデルのための、世界初の半教師付きドメイン適応手法である。DALLMiの中核は、新規の変動損失とMixUp正則化であり、限られた正のラベル付きテキストと大量のラベルなしテキストを共同で活用し、重要な点として、BERT単語埋め込みからそれらを補間する。DALLMiはまた、ラベル付きデータとラベルなしデータ間の不均衡を克服するために、ラベルバランスの取れたサンプリング戦略を導入している。我々は、ターゲットドメインに対するラベルの利用可能性の異なるシナリオの下で、DALLMiを3つのデータセット上で部分教師ありアプローチと教師なしアプローチに対して評価する。その結果、DALLMiは教師なしアプローチおよび部分教師ありアプローチよりも、それぞれ19.9%および52.2%高いmAPを達成した。

要約(オリジナル)

Large language models (LLMs) increasingly serve as the backbone for classifying text associated with distinct domains and simultaneously several labels (classes). When encountering domain shifts, e.g., classifier of movie reviews from IMDb to Rotten Tomatoes, adapting such an LLM-based multi-label classifier is challenging due to incomplete label sets at the target domain and daunting training overhead. The existing domain adaptation methods address either image multi-label classifiers or text binary classifiers. In this paper, we design DALLMi, Domain Adaptation Large Language Model interpolator, a first-of-its-kind semi-supervised domain adaptation method for text data models based on LLMs, specifically BERT. The core of DALLMi is the novel variation loss and MixUp regularization, which jointly leverage the limited positively labeled and large quantity of unlabeled text and, importantly, their interpolation from the BERT word embeddings. DALLMi also introduces a label-balanced sampling strategy to overcome the imbalance between labeled and unlabeled data. We evaluate DALLMi against the partial-supervised and unsupervised approach on three datasets under different scenarios of label availability for the target domain. Our results show that DALLMi achieves higher mAP than unsupervised and partially-supervised approaches by 19.9% and 52.2%, respectively.

arxiv情報

著者 Miruna Beţianu,Abele Mălan,Marco Aldinucci,Robert Birke,Lydia Chen
発行日 2024-05-03 07:04:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク