Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation

要約

固有表現認識 (NER) モデルは、スペルミスや光学式文字認識プロセスによって生成されるエラーなどのノイズの多い入力に苦戦することが多く、堅牢な NER モデルを学習するのは困難です。
既存の堅牢な NER モデルは、トレーニングにノイジー テキストとそれに対応するゴールド テキストの両方を利用しますが、ゴールド テキストが利用できない多くの実世界のアプリケーションではこれは実現できません。
この論文では、ノイズの多いテキストとその NER ラベルのみが利用できる、より現実的な設定を検討します。
我々は、知識コーパスからノイズのあるテキストの関連テキストを取得し、それを使用して元のノイズのある入力の表現を強化することを提案します。
語彙類似性に基づく疎検索、意味類似性に基づく密検索、およびタスク固有のテキストに基づく自己検索の 3 つの検索方法を設計します。
関連するテキストを取得した後、取得したテキストを元のノイズのあるテキストと連結し、トランスフォーマー ネットワークでエンコードします。セルフアテンションを利用して、取得したテキストを使用してノイズのあるテキストのコンテキスト トークン表現を強化します。
さらに、推論中にテキストを取得することなく堅牢な NER を向上させるマルチビュー トレーニング フレームワークを採用しています。
実験では、検索拡張モデルがさまざまなノイズの多い NER 設定で大幅な改善を達成することを示しています。

要約(オリジナル)

Named entity recognition (NER) models often struggle with noisy inputs, such as those with spelling mistakes or errors generated by Optical Character Recognition processes, and learning a robust NER model is challenging. Existing robust NER models utilize both noisy text and its corresponding gold text for training, which is infeasible in many real-world applications in which gold text is not available. In this paper, we consider a more realistic setting in which only noisy text and its NER labels are available. We propose to retrieve relevant text of the noisy text from a knowledge corpus and use it to enhance the representation of the original noisy input. We design three retrieval methods: sparse retrieval based on lexicon similarity, dense retrieval based on semantic similarity, and self-retrieval based on task-specific text. After retrieving relevant text, we concatenate the retrieved text with the original noisy text and encode them with a transformer network, utilizing self-attention to enhance the contextual token representations of the noisy text using the retrieved text. We further employ a multi-view training framework that improves robust NER without retrieving text during inference. Experiments show that our retrieval-augmented model achieves significant improvements in various noisy NER settings.

arxiv情報

著者 Chaoyi Ai,Yong Jiang,Shen Huang,Pengjun Xie,Kewei Tu
発行日 2024-07-26 07:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク