TriG-NER: Triplet-Grid Framework for Discontinuous Named Entity Recognition

要約

不連続固有表現認識 (DNER) は、複数の非隣接トークンにエンティティが散在する可能性があり、従来のシーケンス ラベリング アプローチが不十分になるという困難な問題を引き起こします。
既存の手法は主にカスタムのタグ付けスキームに依存してこれらの不連続なエンティティを処理するため、モデルが特定のタグ付け戦略に密接に結合し、多様なデータセットにわたる汎用性が欠けています。
これらの課題に対処するために、我々は、不連続エンティティ抽出のための堅牢なトークンレベル表現を学習する一般化可能なアプローチを導入する新しいトリプレット グリッド フレームワークである TriG-NER を提案します。
私たちのフレームワークは、トークン レベルで三重項損失を適用します。類似性は、同じエンティティ内に存在する単語のペアによって定義され、類似したものを効果的にまとめ、異なるものを引き離します。
このアプローチは、柔軟なグリッド構造内の単語ペアの関係に焦点を当てることで、エンティティの境界検出を強化し、特定のタグ付けスキームへの依存を軽減します。
私たちは 3 つのベンチマーク DNER データセットで TriG-NER を評価し、既存のグリッドベースのアーキテクチャに比べて大幅な改善が見られることを実証します。
これらの結果は、複雑なエンティティ構造をキャプチャする際のフレームワークの有効性と、さまざまなタグ付けスキームへの適応性を強調し、不連続エンティティ抽出の新しいベンチマークを設定します。

要約(オリジナル)

Discontinuous Named Entity Recognition (DNER) presents a challenging problem where entities may be scattered across multiple non-adjacent tokens, making traditional sequence labelling approaches inadequate. Existing methods predominantly rely on custom tagging schemes to handle these discontinuous entities, resulting in models tightly coupled to specific tagging strategies and lacking generalisability across diverse datasets. To address these challenges, we propose TriG-NER, a novel Triplet-Grid Framework that introduces a generalisable approach to learning robust token-level representations for discontinuous entity extraction. Our framework applies triplet loss at the token level, where similarity is defined by word pairs existing within the same entity, effectively pulling together similar and pushing apart dissimilar ones. This approach enhances entity boundary detection and reduces the dependency on specific tagging schemes by focusing on word-pair relationships within a flexible grid structure. We evaluate TriG-NER on three benchmark DNER datasets and demonstrate significant improvements over existing grid-based architectures. These results underscore our framework’s effectiveness in capturing complex entity structures and its adaptability to various tagging schemes, setting a new benchmark for discontinuous entity extraction.

arxiv情報

著者 Rina Carines Cabral,Soyeon Caren Han,Areej Alhassan,Riza Batista-Navarro,Goran Nenadic,Josiah Poon
発行日 2025-01-22 14:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク