要約
辞書を文字レベルのシーケンスに統合することは、中国語の固有表現認識 (NER) で単語境界と意味情報を活用するのに効果的であることが証明されています。
しかし、従来のアプローチは通常、特徴の重み付けと位置結合を利用して単語情報を統合しますが、文字と単語の空間におけるきめの細かい意味単位間の意味論的および文脈上の対応関係を無視しています。
この問題を解決するために、中国の NER に対する Unified Lattice Graph Fusion (ULGF) アプローチを提案します。
ULGF は、格子構造を統合グラフに変換することにより、隣接行列を使用して、異なる意味単位にわたるさまざまな意味関係および境界関係を明示的にキャプチャできます。
複数のグラフベースのソース内セルフアテンション層とソース間クロスゲート融合層をスタックし、意味論的な相互作用を繰り返し実行してノード表現を学習します。
単語情報への過度の依存を軽減するために、補助タスクとして辞書エンティティ分類を活用することをさらに提案します。
4 つの中国の NER ベンチマーク データセットでの実験により、ULGF アプローチの優位性が実証されました。
要約(オリジナル)
Integrating lexicon into character-level sequence has been proven effective to leverage word boundary and semantic information in Chinese named entity recognition (NER). However, prior approaches usually utilize feature weighting and position coupling to integrate word information, but ignore the semantic and contextual correspondence between the fine-grained semantic units in the character-word space. To solve this issue, we propose a Unified Lattice Graph Fusion (ULGF) approach for Chinese NER. ULGF can explicitly capture various semantic and boundary relations across different semantic units with the adjacency matrix by converting the lattice structure into a unified graph. We stack multiple graph-based intra-source self-attention and inter-source cross-gating fusion layers that iteratively carry out semantic interactions to learn node representations. To alleviate the over-reliance on word information, we further propose to leverage lexicon entity classification as an auxiliary task. Experiments on four Chinese NER benchmark datasets demonstrate the superiority of our ULGF approach.
arxiv情報
著者 | Dixiang Zhang,Junyu Lu,Pingjian Zhang |
発行日 | 2023-12-28 09:31:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google