要約
これまでのエンティティ曖昧性解消(ED)手法は、長さに制限のあるエンコーダを使用して、言及文脈と候補エンティティのマッチングスコアに基づいて予測を行う、識別パラダイムを採用している。しかし、これらの手法はしばしば、明示的な談話レベルの依存関係を捉えることに苦労し、その結果、抽象的なレベル(トピックやカテゴリなど)では支離滅裂な予測となってしまう。我々はCoherentEDを提案する。CoherentEDは、エンティティ予測の一貫性を高めることを目的とした新しい設計を備えたEDシステムである。本手法では、まず教師なし変分オートエンコーダ(VAE)を導入し、文脈文の潜在トピックベクトルを抽出する。このアプローチにより、エンコーダはより長い文書をより効果的に扱うことができ、貴重な入力空間を節約できるだけでなく、トピックレベルの一貫性を保つことができる。さらに、外部カテゴリメモリを組み込むことで、未決定のメンションに関連するカテゴリをシステムが検索できるようにする。段階的な実体の決定を採用することで、この設計は実体と実体の相互作用のモデリングを容易にし、それによりカテゴリレベルでの一貫性を最大限に維持する。我々は、一般的なEDベンチマークにおいて、平均1.3ポイントのF1改善という、最先端の結果を達成した。我々のモデルは、困難な長文シナリオにおいて特に優れた性能を示す。
要約(オリジナル)
Previous entity disambiguation (ED) methods adopt a discriminative paradigm, where prediction is made based on matching scores between mention context and candidate entities using length-limited encoders. However, these methods often struggle to capture explicit discourse-level dependencies, resulting in incoherent predictions at the abstract level (e.g. topic or category). We propose CoherentED, an ED system equipped with novel designs aimed at enhancing the coherence of entity predictions. Our method first introduces an unsupervised variational autoencoder (VAE) to extract latent topic vectors of context sentences. This approach not only allows the encoder to handle longer documents more effectively, conserves valuable input space, but also keeps a topic-level coherence. Additionally, we incorporate an external category memory, enabling the system to retrieve relevant categories for undecided mentions. By employing step-by-step entity decisions, this design facilitates the modeling of entity-entity interactions, thereby maintaining maximum coherence at the category level. We achieve new state-of-the-art results on popular ED benchmarks, with an average improvement of 1.3 F1 points. Our model demonstrates particularly outstanding performance on challenging long-text scenarios.
arxiv情報
著者 | Zilin Xiao,Linjun Shou,Xingyao Zhang,Jie Wu,Ming Gong,Jian Pei,Daxin Jiang |
発行日 | 2023-11-06 16:40:13+00:00 |
arxivサイト | arxiv_id(pdf) |