A Zipf’s Law-based Text Generation Approach for Addressing Imbalance in Entity Extraction

要約

エンティティ抽出は、多様な領域にわたるインテリジェントな進歩において重要である。しかしながら、その有効性に対する課題は、データの不均衡から生じる。本論文では、エンティティがあるレベルの共通性を示す一方で、他のエンティティは希少であることを認識し、定量的な情報を通してこの問題を捉えることで、新しいアプローチを提案する。Zipfの法則が適切な採用法として浮上し、単語からエンティティへ移行するために、文書内の単語を一般的なものと希少なものに分類する。続いて、文は一般的なものと希少なものに分類され、それに応じてテキスト生成モデルによってさらに処理される。生成された文章内の希少エンティティは、人間が設計したルールを用いてラベル付けされ、生のデータセットを補完する役割を果たし、それにより不均衡問題を緩和する。本研究では、技術文書から実体を抽出するケースを提示し、2つのデータセットによる実験結果から、提案手法の有効性を証明する。さらに、AIの進歩を牽引するZipfの法則の意義について議論し、Informetricsの到達範囲と適用範囲を広げる。本論文は、Zipfの法則を通じて、インフォメトリクスをAIとのインターフェースに拡張することに成功した実証を示す。

要約(オリジナル)

Entity extraction is critical in the intelligent advancement across diverse domains. Nevertheless, a challenge to its effectiveness arises from the data imbalance. This paper proposes a novel approach by viewing the issue through the quantitative information, recognizing that entities exhibit certain levels of commonality while others are scarce, which can be reflected in the quantifiable distribution of words. The Zipf’s Law emerges as a well-suited adoption, and to transition from words to entities, words within the documents are classified as common and rare ones. Subsequently, sentences are classified into common and rare ones, and are further processed by text generation models accordingly. Rare entities within the generated sentences are then labeled using human-designed rules, serving as a supplement to the raw dataset, thereby mitigating the imbalance problem. The study presents a case of extracting entities from technical documents, and experimental results from two datasets prove the effectiveness of the proposed method. Furthermore, the significance of Zipf’s law in driving the progress of AI is discussed, broadening the reach and coverage of Informetrics. This paper presents a successful demonstration of extending Informetrics to interface with AI through Zipf’s Law.

arxiv情報

著者 Zhenhua Wang,Ming Ren,Dong Gao,Zhuang Li
発行日 2023-09-01 00:09:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク