Automatic Context Pattern Generation for Entity Set Expansion

要約

エンティティ セット展開 (ESE) は、特定のシード エンティティによって記述されたターゲット セマンティック クラスのエンティティを見つけることを目的とする重要なタスクです。
さまざまな自然言語処理 (NLP) および情報検索 (IR) ダウンストリーム アプリケーションは、ESE の知識発見能力により恩恵を受けてきました。
既存のコーパスベースの ESE メソッドは大きな進歩を遂げていますが、それらのほとんどは、文内のエンティティの位置からコンテキスト パターンを取得する必要があるため、高品質のエンティティ情報に注釈が付けられたコーパスに依然として依存しています。
したがって、特定のコーパスとそのエンティティ アノテーションの品質が、そのようなメソッドのパフォーマンスを制限するボトルネックになっています。
このジレンマを克服し、ESE モデルをエンティティ アノテーションへの依存から解放するために、私たちの研究は新しい ESE パラダイム、つまりコーパスに依存しない ESE を探求することを目指しています。
具体的には、自己回帰言語モデル (GPT-2 など) を利用してエンティティの高品質なコンテキスト パターンを自動的に生成するコンテキスト パターン生成モジュールを考案します。
さらに、前述の生成されたパターンを活用して対象エンティティを拡大する新しい ESE フレームワークである GAPA を提案します。
広く使用されている 3 つのデータセットに対する広範な実験と詳細な分析により、この手法の有効性が実証されました。
実験のすべてのコードは、https://github.com/geekjuruo/GAPA で入手できます。

要約(オリジナル)

Entity Set Expansion (ESE) is a valuable task that aims to find entities of the target semantic class described by given seed entities. Various Natural Language Processing (NLP) and Information Retrieval (IR) downstream applications have benefited from ESE due to its ability to discover knowledge. Although existing corpus-based ESE methods have achieved great progress, they still rely on corpora with high-quality entity information annotated, because most of them need to obtain the context patterns through the position of the entity in a sentence. Therefore, the quality of the given corpora and their entity annotation has become the bottleneck that limits the performance of such methods. To overcome this dilemma and make the ESE models free from the dependence on entity annotation, our work aims to explore a new ESE paradigm, namely corpus-independent ESE. Specifically, we devise a context pattern generation module that utilizes autoregressive language models (e.g., GPT-2) to automatically generate high-quality context patterns for entities. In addition, we propose the GAPA, a novel ESE framework that leverages the aforementioned GenerAted PAtterns to expand target entities. Extensive experiments and detailed analyses on three widely used datasets demonstrate the effectiveness of our method. All the codes of our experiments are available at https://github.com/geekjuruo/GAPA.

arxiv情報

著者 Yinghui Li,Shulin Huang,Xinwei Zhang,Qingyu Zhou,Yangning Li,Ruiyang Liu,Yunbo Cao,Hai-Tao Zheng,Ying Shen
発行日 2023-03-08 15:06:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク