Optimizing Bi-Encoder for Named Entity Recognition via Contrastive Learning

要約

名前付きエンティティ認識 (NER) のバイエンコーダー フレームワークを提示します。これは、対照的な学習を適用して、候補テキスト スパンとエンティティ タイプを同じベクトル表現空間にマップします。
以前の研究は主に、シーケンスのラベル付けまたはスパン分類として NER にアプローチしています。
代わりに、エンティティの言及とそのタイプのベクトル表現間の類似性を最大化する表現学習問題として NER を組み立てます。
これにより、ネストされた NER とフラット NER を同様に簡単に処理でき、ノイズの多い自己監視信号をより適切に活用できます。
この NER のバイエンコーダー定式化に対する主な課題は、非エンティティ スパンをエンティティ メンションから分離することにあります。
以前のほとんどの方法のように、すべての非エンティティ スパンを同じクラス $\texttt{Outside}$ ($\texttt{O}$) として明示的にラベル付けする代わりに、新しい動的しきい値損失を導入します。
実験は、私たちの方法が、ネストされたNERとフラットNERの両方で、監視された設定と遠隔監視された設定の両方でうまく機能することを示しており、一般的なドメイン(ACE2004、ACE2005など)の標準データセットと生物医学などの高価値の垂直分野で新しい最先端を確立しています
(例: GENIA、NCBI、BC5CDR、JNLPBA)。
github.com/microsoft/binder でコードをリリースします。

要約(オリジナル)

We present a bi-encoder framework for named entity recognition (NER), which applies contrastive learning to map candidate text spans and entity types into the same vector representation space. Prior work predominantly approaches NER as sequence labeling or span classification. We instead frame NER as a representation learning problem that maximizes the similarity between the vector representations of an entity mention and its type. This makes it easy to handle nested and flat NER alike, and can better leverage noisy self-supervision signals. A major challenge to this bi-encoder formulation for NER lies in separating non-entity spans from entity mentions. Instead of explicitly labeling all non-entity spans as the same class $\texttt{Outside}$ ($\texttt{O}$) as in most prior methods, we introduce a novel dynamic thresholding loss. Experiments show that our method performs well in both supervised and distantly supervised settings, for nested and flat NER alike, establishing new state of the art across standard datasets in the general domain (e.g., ACE2004, ACE2005) and high-value verticals such as biomedicine (e.g., GENIA, NCBI, BC5CDR, JNLPBA). We release the code at github.com/microsoft/binder.

arxiv情報

著者 Sheng Zhang,Hao Cheng,Jianfeng Gao,Hoifung Poon
発行日 2023-02-23 06:17:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク