From Retrieval to Generation: Efficient and Effective Entity Set Expansion

要約

タイトル:抽出から生成へ:効率的で効果的なエンティティセットの拡張

要約:

– Entity Set Expansion (ESE)は、小さなシードエンティティセットで記述されたターゲット意味クラスのエンティティを拡張することを目的とする重要なタスクです。
– 多くの既存のESE方法は検索ベースのフレームワークであり、エンティティの文脈的な特徴を抽出し、シードエンティティと候補エンティティの類似性を計算する必要があります。
– しかし、このためには、コーパスとデータセットで提供されるエンティティ語彙を反復的にトラバースする必要があり、効率性と拡張性に問題があります。
– 本論文では、まず、Generative Entity Set Expansion (GenExpan)という生成的なESEフレームワークを提案します。
– 具体的には、プレトレーニングされた言語モデルを使用してESEタスクを実行します。
– 接頭辞ツリーを使用してエンティティ生成の妥当性を保証し、自動生成されたクラス名を採用してモデルをターゲットエンティティの生成に誘導します。
– さらに、Knowledge CalibrationとGenerative Rankingを提案し、言語モデルの一般的な知識とESEタスクの目標のギャップを埋めることを試みました。
– 公開されているデータセット上の実験結果は、GenExpanが効率的で効果的であることを示しています。
– 効率性に関して、GenExpanによる拡張時間はエンティティ語彙とコーパスのサイズに依存しないため、強力なベースラインと比較して平均600%の高速化を達成しました。
– 拡張性能に関して、本フレームワークはこれまでの最新のESE方法を上回っています。

要約(オリジナル)

Entity Set Expansion (ESE) is a critical task aiming to expand entities of the target semantic class described by a small seed entity set. Most existing ESE methods are retrieval-based frameworks that need to extract the contextual features of entities and calculate the similarity between seed entities and candidate entities. To achieve the two purposes, they should iteratively traverse the corpus and the entity vocabulary provided in the datasets, resulting in poor efficiency and scalability. The experimental results indicate that the time consumed by the retrieval-based ESE methods increases linearly with entity vocabulary and corpus size. In this paper, we firstly propose a generative ESE framework, Generative Entity Set Expansion (GenExpan), which utilizes a generative pre-trained language model to accomplish ESE task. Specifically, a prefix tree is employed to guarantee the validity of entity generation, and automatically generated class names are adopted to guide the model to generate target entities. Moreover, we propose Knowledge Calibration and Generative Ranking to further bridge the gap between generic knowledge of the language model and the goal of ESE task. Experiments on publicly available datasets show that GenExpan is efficient and effective. For efficiency, expansion time consumed by GenExpan is independent of entity vocabulary and corpus size, and GenExpan achieves an average 600% speedup compared to strong baselines. For expansion performance, our framework outperforms previous state-of-the-art ESE methods.

arxiv情報

著者 Shulin Huang,Shirong Ma,Yangning Li,Yinghui Li,Hai-Tao Zheng,Yong Jiang
発行日 2023-04-07 08:09:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR パーマリンク