SimCKP: Simple Contrastive Learning of Keyphrase Representations

要約

キーフレーズ生成 (KG) は、ソース文書から一連の要約単語またはフレーズを生成することを目的とし、キーフレーズ抽出 (KE) はテキストからそれらを識別することを目的としています。
KE では検索空間がはるかに小さいため、対応する文書に存在するかどうかのキーフレーズを予測するために、KG と組み合わせて使用​​されることがよくあります。
ただし、現在の統一アプローチは、主にトークン レベルで動作するシーケンス ラベリングと最大化ベースの生成を採用しており、キーフレーズ全体を観察してスコアリングするという点では不十分です。
この研究では、次の 2 つの段階で構成される単純な対比学習フレームワークである SimCKP を提案します。 1) コンテキストを意識したフレーズレベルの表現を対比的に学習することでキーフレーズを抽出する抽出生成器。同時に、文字列に現れないキーフレーズも生成します。
文書。
2) 生成された各フレーズの表現を対応するドキュメントと同様に調整することでスコアを調整するリランカー。
複数のベンチマーク データセットでの実験結果は、私たちが提案したアプローチの有効性を示しており、最先端のモデルを大幅に上回っています。

要約(オリジナル)

Keyphrase generation (KG) aims to generate a set of summarizing words or phrases given a source document, while keyphrase extraction (KE) aims to identify them from the text. Because the search space is much smaller in KE, it is often combined with KG to predict keyphrases that may or may not exist in the corresponding document. However, current unified approaches adopt sequence labeling and maximization-based generation that primarily operate at a token level, falling short in observing and scoring keyphrases as a whole. In this work, we propose SimCKP, a simple contrastive learning framework that consists of two stages: 1) An extractor-generator that extracts keyphrases by learning context-aware phrase-level representations in a contrastive manner while also generating keyphrases that do not appear in the document; 2) A reranker that adapts scores for each generated phrase by likewise aligning their representations with the corresponding document. Experimental results on multiple benchmark datasets demonstrate the effectiveness of our proposed approach, which outperforms the state-of-the-art models by a significant margin.

arxiv情報

著者 Minseok Choi,Chaeheon Gwak,Seho Kim,Si Hyeong Kim,Jaegul Choo
発行日 2023-10-12 11:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク