Neural Keyphrase Generation: Analysis and Evaluation


– キーフレーズ生成は、与えられたテキストからトピックを表すフレーズを、元のテキストからコピーする(現在のキーフレーズ)ことも、テキストの意味を捉えた新しいキーフレーズ(欠落キーフレーズ)を生成することもできる。
– 欠落キーフレーズの生成に優れたエンコーダ・デコーダモデルがこのタスクで最も広く使用されているが、そのパフォーマンスや動作についての分析はほとんど行われていない。
– この論文では、事前学習されたトランスフォーマーをベースにしたT5、事前学習のされていないトランスフォーマーをベースにしたCatSeq-Transformer、そして再帰ニューラルネットワークをベースにしたExHiRDという3つの強力なモデルが示す様々な傾向を研究する。
– 予測信頼スコア、モデルのキャリブレーション、トークン位置のキーフレーズ生成への影響を分析する。
– さらに、部分一致と意味的類似性を考慮したソフトスコアを用いて2つのキーフレーズ集合の類似性を評価するための新しいメトリックフレームワークであるSoftKeyScoreを提案する。
– SoftKeyScoreは、標準のF1メトリックよりも2つの与えられたキーフレーズ集合を評価するのにより適していると結論づけた。


Keyphrase generation aims at generating topical phrases from a given text either by copying from the original text (present keyphrases) or by producing new keyphrases (absent keyphrases) that capture the semantic meaning of the text. Encoder-decoder models are most widely used for this task because of their capabilities for absent keyphrase generation. However, there has been little to no analysis on the performance and behavior of such models for keyphrase generation. In this paper, we study various tendencies exhibited by three strong models: T5 (based on a pre-trained transformer), CatSeq-Transformer (a non-pretrained Transformer), and ExHiRD (based on a recurrent neural network). We analyze prediction confidence scores, model calibration, and the effect of token position on keyphrases generation. Moreover, we motivate and propose a novel metric framework, SoftKeyScore, to evaluate the similarity between two sets of keyphrases by using softscores to account for partial matching and semantic similarity. We find that SoftKeyScore is more suitable than the standard F1 metric for evaluating two sets of given keyphrases.


著者 Tuhin Kundu,Jishnu Ray Chowdhury,Cornelia Caragea
発行日 2023-04-27 00:10:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, cs.IR パーマリンク