Enhancing Phrase Representation by Information Bottleneck Guided Text Diffusion Process for Keyphrase Extraction

要約

キーフレーズ抽出 (KPE) は、多くのシナリオにおいて自然言語処理の重要なタスクであり、特定のドキュメント内に存在するキーフレーズを抽出することを目的としています。
既存の教師あり手法の多くは、KPE を逐次的なラベル付け、スパンレベルの分類、または生成タスクとして扱います。
ただし、これらの方法にはキーフレーズ情報を利用する機能がないため、偏った結果が生じる可能性があります。
この研究では、教師あり変分情報ボトルネック (VIB) を活用して、強化されたキーフレーズ表現を生成するためのテキスト拡散プロセスをガイドする Diff-KPE を提案します。
Diff-KPE は、まずドキュメント全体に条件付けされた目的のキーフレーズ埋め込みを生成し、次に、生成されたキーフレーズ埋め込みを各フレーズ表現に挿入します。
次に、ランク付けネットワークと VIB が、それぞれランク損失と分類損失とともに最適化されます。
Diff-KPE のこの設計により、キーフレーズとドキュメントの両方の情報を利用して、各候補フレーズをランク付けできます。
実験の結果、Diff-KPE は、大規模なオープン ドメイン キーフレーズ抽出ベンチマーク OpenKP および科学ドメイン データセット KP20K で既存の KPE 手法よりも優れたパフォーマンスを発揮することが示されています。

要約(オリジナル)

Keyphrase extraction (KPE) is an important task in Natural Language Processing for many scenarios, which aims to extract keyphrases that are present in a given document. Many existing supervised methods treat KPE as sequential labeling, span-level classification, or generative tasks. However, these methods lack the ability to utilize keyphrase information, which may result in biased results. In this study, we propose Diff-KPE, which leverages the supervised Variational Information Bottleneck (VIB) to guide the text diffusion process for generating enhanced keyphrase representations. Diff-KPE first generates the desired keyphrase embeddings conditioned on the entire document and then injects the generated keyphrase embeddings into each phrase representation. A ranking network and VIB are then optimized together with rank loss and classification loss, respectively. This design of Diff-KPE allows us to rank each candidate phrase by utilizing both the information of keyphrases and the document. Experiments show that Diff-KPE outperforms existing KPE methods on a large open domain keyphrase extraction benchmark, OpenKP, and a scientific domain dataset, KP20K.

arxiv情報

著者 Yuanzhen Luo,Qingyu Zhou,Feng Zhou
発行日 2024-03-20 16:41:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク