From Retrieval to Generation: Efficient and Effective Entity Set Expansion

要約

エンティティ セット拡張 (ESE) は、小さなシード エンティティ セットによって記述されたターゲット セマンティック クラスのエンティティを拡張することを目的とした重要なタスクです。
既存の ESE メソッドのほとんどは、エンティティのコンテキスト上の特徴を抽出し、シード エンティティと候補エンティティ間の類似性を計算する必要がある検索ベースのフレームワークです。
2 つの目的を達成するには、データセットで提供されるコーパスとエンティティ語彙を反復的に走査する必要があり、その結果、効率とスケーラビリティが低下します。
実験結果は、検索ベースの ESE 手法によって消費される時間が、エンティティ語彙とコーパス サイズに応じて直線的に増加することを示しています。
この論文では、まず、生成的な ESE フレームワークである Generative Entity Set Expansion (GenExpan) を提案します。これは、ESE タスクを達成するために生成的な事前トレーニング済み言語モデルを利用します。
具体的には、エンティティ生成の正当性を保証するためにプレフィックス ツリーが採用され、ターゲット エンティティを生成するモデルをガイドするために自動生成されたクラス名が採用されます。
さらに、言語モデルの一般的な知識と ESE タスクの目標との間のギャップをさらに埋めるために、知識の調整と生成ランキングを提案します。
公開されているデータセットでの実験では、GenExpan が効率的かつ効果的であることが示されています。
効率性を高めるため、GenExpan によって消費される展開時間はエンティティ語彙やコーパス サイズに依存せず、GenExpan は強力なベースラインと比較して平均 600% の高速化を達成します。
拡張パフォーマンスに関しては、当社のフレームワークは以前の最先端の ESE メソッドよりも優れています。

要約(オリジナル)

Entity Set Expansion (ESE) is a critical task aiming to expand entities of the target semantic class described by a small seed entity set. Most existing ESE methods are retrieval-based frameworks that need to extract the contextual features of entities and calculate the similarity between seed entities and candidate entities. To achieve the two purposes, they should iteratively traverse the corpus and the entity vocabulary provided in the datasets, resulting in poor efficiency and scalability. The experimental results indicate that the time consumed by the retrieval-based ESE methods increases linearly with entity vocabulary and corpus size. In this paper, we firstly propose a generative ESE framework, Generative Entity Set Expansion (GenExpan), which utilizes a generative pre-trained language model to accomplish ESE task. Specifically, a prefix tree is employed to guarantee the validity of entity generation, and automatically generated class names are adopted to guide the model to generate target entities. Moreover, we propose Knowledge Calibration and Generative Ranking to further bridge the gap between generic knowledge of the language model and the goal of ESE task. Experiments on publicly available datasets show that GenExpan is efficient and effective. For efficiency, expansion time consumed by GenExpan is independent of entity vocabulary and corpus size, and GenExpan achieves an average 600% speedup compared to strong baselines. For expansion performance, our framework outperforms previous state-of-the-art ESE methods.

arxiv情報

著者 Shulin Huang,Shirong Ma,Yangning Li,Yinghui Li,Hai-Tao Zheng,Yong Jiang,Hong-Gee Kim
発行日 2023-08-10 10:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク