要約
タイトル:低リソースの固有表現認識のためのAUC最大化
要約:
– 現在の固有表現認識(NER)において、交差エントロピー(CE)または条件付きランダムフィールド(CRF)が、NERモデルを最適化するための目的/損失関数として使用されています。
– これらの従来のNER問題の目的関数の両方は、データ分布がバランスしており、十分な注釈付きトレーニング例がある場合には十分なパフォーマンスを発揮します。しかし、NERは本質的に不均衡なタギング問題であるため、これらの標準的な目的関数を使用すると、低リソースの設定下でのモデルのパフォーマンスが低下する可能性があります。
– ROC曲線下面積(AUC)最大化の最近の進歩を踏まえて、AUCスコアを最大化してNERモデルを最適化することを提案しています。AUCスコアを最大化する2つのバイナリ分類器を単純に組み合わせることにより、従来の損失関数に比べて、低リソースNER設定下でのパフォーマンス改善が得られることを示します。
– また、低リソースおよび高度に不均衡なデータ分布設定下で、我々の方法の利点を実証するために多数の実験を行います。我々の知る限り、これがNER設定にAUC最大化を取り入れる最初の研究です。
– さらに、我々は、我々の方法が、さまざまなタイプのNER埋め込み、モデル、およびドメインに対して不可知であることを示しました。本研究を再現するためのコードは、リクエストに応じて提供されます。
要約(オリジナル)
Current work in named entity recognition (NER) uses either cross entropy (CE) or conditional random fields (CRF) as the objective/loss functions to optimize the underlying NER model. Both of these traditional objective functions for the NER problem generally produce adequate performance when the data distribution is balanced and there are sufficient annotated training examples. But since NER is inherently an imbalanced tagging problem, the model performance under the low-resource settings could suffer using these standard objective functions. Based on recent advances in area under the ROC curve (AUC) maximization, we propose to optimize the NER model by maximizing the AUC score. We give evidence that by simply combining two binary-classifiers that maximize the AUC score, significant performance improvement over traditional loss functions is achieved under low-resource NER settings. We also conduct extensive experiments to demonstrate the advantages of our method under the low-resource and highly-imbalanced data distribution settings. To the best of our knowledge, this is the first work that brings AUC maximization to the NER setting. Furthermore, we show that our method is agnostic to different types of NER embeddings, models and domains. The code to replicate this work will be provided upon request.
arxiv情報
著者 | Ngoc Dang Nguyen,Wei Tan,Wray Buntine,Richard Beare,Changyou Chen,Lan Du |
発行日 | 2023-04-13 18:52:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI