From Retrieval to Generation: Efficient and Effective Entity Set Expansion

要約

エンティティ セット拡張 (ESE) は、シード エンティティによって記述されたターゲット セマンティック クラスのエンティティを拡張することを目的とした重要なタスクです。
既存の ESE メソッドのほとんどは、エンティティのコンテキスト上の特徴を抽出し、シード エンティティと候補エンティティの間の類似性を計算する必要がある検索ベースのフレームワークです。
2 つの目的を達成するために、コーパスとエンティティ語彙を反復的に走査するため、効率とスケーラビリティが低下します。
実験結果によると、検索ベースの ESE 手法で消費される時間は、エンティティ語彙とコーパス サイズに応じて直線的に増加します。
この論文では、まず生成的な事前トレーニングされた自己回帰言語モデルを利用して ESE タスクを達成する生成エンティティ セット拡張 (GenExpan) フレームワークを提案します。
具体的には、エンティティ生成の正当性を保証するためにプレフィックス ツリーが採用され、ターゲット エンティティを生成するモデルをガイドするために自動生成されたクラス名が採用されます。
さらに、言語モデルの一般的な知識と ESE タスクの目標との間のギャップをさらに埋めるために、知識の調整と生成ランキングを提案します。
効率性を高めるため、GenExpan によって消費される展開時間はエンティティ語彙やコーパス サイズに依存せず、GenExpan は強力なベースラインと比較して平均 600% の高速化を達成します。
拡張効果に関しては、当社のフレームワークは以前の最先端の ESE メソッドよりも優れています。

要約(オリジナル)

Entity Set Expansion (ESE) is a critical task aiming at expanding entities of the target semantic class described by seed entities. Most existing ESE methods are retrieval-based frameworks that need to extract contextual features of entities and calculate the similarity between seed entities and candidate entities. To achieve the two purposes, they iteratively traverse the corpus and the entity vocabulary, resulting in poor efficiency and scalability. Experimental results indicate that the time consumed by the retrieval-based ESE methods increases linearly with entity vocabulary and corpus size. In this paper, we firstly propose Generative Entity Set Expansion (GenExpan) framework, which utilizes a generative pre-trained auto-regressive language model to accomplish ESE task. Specifically, a prefix tree is employed to guarantee the validity of entity generation, and automatically generated class names are adopted to guide the model to generate target entities. Moreover, we propose Knowledge Calibration and Generative Ranking to further bridge the gap between generic knowledge of the language model and the goal of ESE task. For efficiency, expansion time consumed by GenExpan is independent of entity vocabulary and corpus size, and GenExpan achieves an average 600% speedup compared to strong baselines. For expansion effectiveness, our framework outperforms previous state-of-the-art ESE methods.

arxiv情報

著者 Shulin Huang,Shirong Ma,Yangning Li,Yinghui Li,Yong Jiang,Hai-Tao Zheng,Ying Shen
発行日 2023-10-31 15:41:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク