要約
名前のタグ付けは情報抽出 (IE) の重要なコンポーネントであり、特に生物医学や化学などの科学分野では、ChatGPT などの大規模言語モデル (LLM) では対応できません。
私たちは、生物医学ドメイン (ソース ドメイン) でトレーニングされた名前タグ付けモデルを強化し、化学ドメイン (ターゲット ドメイン) で使用できるようにするための転移学習の適用性を調査します。
数ショット学習設定でこのようなモデルをトレーニングする一般的な方法は、ラベル付きソース データでモデルを事前トレーニングし、次に、ラベル付きのターゲット サンプルの数を使用してモデルを微調整することです。
私たちの実験では、このようなモデルでは、テキストに頻繁に現れるソース エンティティをターゲット エンティティとして誤ってラベル付けする傾向があることが観察されました。
この問題を軽減するために、ソース ドメインからターゲット ドメインに知識を転送すると同時に、ソース エンティティとターゲット エンティティを特徴空間の別々の領域に投影するモデルを提案します。
これにより、ソース エンティティをターゲット エンティティとして誤ってラベル付けするリスクが軽減されます。
私たちのモデルは 2 つの段階で構成されます。1) ソース ドメインでのエンティティのグループ化。注釈付きのイベントからの知識を組み込んでエンティティ間の関係を確立します。2) ターゲット ドメインでのエンティティの識別。疑似ラベリングと対照学習に依存してエンティティ間の区別を強化します。
2 つのドメイン内のエンティティ。
私たちは 3 つのソース データセットと 3 つのターゲット データセットにわたって広範な実験を実行し、いくつかのシナリオでは絶対値 5\% だけ、私たちの方法がベースラインを上回るパフォーマンスを示しました。
要約(オリジナル)
Name tagging is a key component of Information Extraction (IE), particularly in scientific domains such as biomedicine and chemistry, where large language models (LLMs), e.g., ChatGPT, fall short. We investigate the applicability of transfer learning for enhancing a name tagging model trained in the biomedical domain (the source domain) to be used in the chemical domain (the target domain). A common practice for training such a model in a few-shot learning setting is to pretrain the model on the labeled source data, and then, to finetune it on a hand-full of labeled target examples. In our experiments we observed that such a model is prone to mis-labeling the source entities, which can often appear in the text, as the target entities. To alleviate this problem, we propose a model to transfer the knowledge from the source domain to the target domain, however, at the same time, to project the source entities and target entities into separate regions of the feature space. This diminishes the risk of mis-labeling the source entities as the target entities. Our model consists of two stages: 1) entity grouping in the source domain, which incorporates knowledge from annotated events to establish relations between entities, and 2) entity discrimination in the target domain, which relies on pseudo labeling and contrastive learning to enhance discrimination between the entities in the two domains. We carry out our extensive experiments across three source and three target datasets, and demonstrate that our method outperforms the baselines, in some scenarios by 5\% absolute value.
arxiv情報
著者 | Hongyi Liu,Qingyun Wang,Payam Karisani,Heng Ji |
発行日 | 2024-01-19 03:49:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google