要約
不連続な言及の内部構造の明示的な記述に基づいて、不連続な固有表現を認識するための新しいタグ付けスキームを導入します。
限界事後推論と最大事後推論の両方に重み付き有限状態オートマトンを利用します。
そのため、私たちの方法は、(1) 予測されたタグ シーケンスの整形式性がオートマトン構造によって保証され、(2) 整形式のタグ シーケンスと (不連続な) メンションの間に明確なマッピングがあるという意味で健全です。
私たちは生物医学分野の 3 つの英国のデータセットに対するアプローチを評価し、よりシンプルで高速なモデルを持ちながら、最先端のデータセットと同等の結果を報告します。
要約(オリジナル)
We introduce a novel tagging scheme for discontinuous named entity recognition based on an explicit description of the inner structure of discontinuous mentions. We rely on a weighted finite state automaton for both marginal and maximum a posteriori inference. As such, our method is sound in the sense that (1) well-formedness of predicted tag sequences is ensured via the automaton structure and (2) there is an unambiguous mapping between well-formed sequences of tags and (discontinuous) mentions. We evaluate our approach on three English datasets in the biomedical domain, and report comparable results to state-of-the-art while having a way simpler and faster model.
arxiv情報
著者 | Caio Corro |
発行日 | 2024-09-24 17:07:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google