要約
名前付きエンティティ認識 (NER) は、テキストからドメイン固有のエンティティ (音楽ドメインのアーティストなど) を抽出するのに役立ちますが、ターゲットで正確な NER を実行するために大量のトレーニング データまたは構造化された知識ベースを作成するにはコストがかかります。
ドメイン。
ここでは、非構造化テキストから外部知識を取得して、十分に学習されていないエンティティの使用法を学習する、自己適応型 NER を提案します。
NER に役立つ知識を取得するために、不確実なエンティティをクエリとして使用して構造化されていない知識を取得する効果的な 2 段階モデルを設計します。
私たちのモデルは、入力内のエンティティを予測し、予測が信頼できないものを見つけます。
次に、これらの不確実なエンティティをクエリとして使用して知識を取得し、取得したテキストを元の入力に連結して予測を修正します。
CrossNER データセットの実験では、F1 メトリックでモデルが強力なベースラインよりも 2.35 ポイント優れていることが実証されました。
要約(オリジナル)
Although named entity recognition (NER) helps us to extract domain-specific entities from text (e.g., artists in the music domain), it is costly to create a large amount of training data or a structured knowledge base to perform accurate NER in the target domain. Here, we propose self-adaptive NER, which retrieves external knowledge from unstructured text to learn the usages of entities that have not been learned well. To retrieve useful knowledge for NER, we design an effective two-stage model that retrieves unstructured knowledge using uncertain entities as queries. Our model predicts the entities in the input and then finds those of which the prediction is not confident. Then, it retrieves knowledge by using these uncertain entities as queries and concatenates the retrieved text to the original input to revise the prediction. Experiments on CrossNER datasets demonstrated that our model outperforms strong baselines by 2.35 points in F1 metric.
arxiv情報
著者 | Kosuke Nishida,Naoki Yoshinaga,Kyosuke Nishida |
発行日 | 2023-03-10 12:32:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google