A Zipf’s Law-Driven Method for Extracting Entities from Documents

要約

エンティティ抽出は、さまざまなドメインのインテリジェントな開発と知識エージェントの構築にとって重要です。
しかし、一部の特定のドメインのドキュメントには、エンティティの一部のカテゴリが一般的である一方で、いくつかはまれで散在しているという、カテゴリの不均衡の問題があります。
この論文では、Zipf の法則を使用してこの問題に取り組み、ドキュメントからのエンティティ抽出のパフォーマンスを促進することを提案します。
Zipf の法則の 2 つの形式を使用して、ドキュメント内の単語は一般的な単語とまれな単語に分類され、次に文章が一般的な単語とまれな単語に分類され、それぞれテキスト生成モデルによってさらに処理されます。
生成された文のまれなエンティティは、人間が設計したルールでラベル付けされ、カテゴリの不均衡の問題を軽減するために、生のデータセットの補足として機能します。
産業安全に関する技術文書からエンティティを抽出する事例を示し、2 つのデータセットに関する実験結果は、提案された方法の有効性を示しています。

要約(オリジナル)

Entity extraction is critical to the intelligent development of various domains and the construction of knowledge agents. Yet, there is category imbalance problem in documents in some specific domains that some categories of entities are common, while some are rare and scattered. This paper proposes to use Zipf’s law to tackle this problem and to promote the performance of entity extraction from documents. Using two forms of Zipf’s law, words in the documents are classified into common and rare ones, and then sentences are classified into common and rare ones, and are further processed by text generation models respectively. Rare entities in the generated sentences are labeled with human-designed rules, and serve as a supplement to the raw dataset so as to alleviate the category imbalance problem. A case of extracting entities from technical documents on industrial safety is given and the experiments results on two datasets show the effectiveness of the proposed method.

arxiv情報

著者 Zhenhua Wang,Ming Ren,Dong Gao,Zhuang Li
発行日 2023-03-02 01:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク