Unsupervised Keyphrase Extraction via Interpretable Neural Networks


私たちの仕事は、キーフレーズをドキュメントのトピックを予測するための顕著なドキュメント フレーズとして定義する単純な代替アプローチを提示します。
この目的のために、INSPECT を提案します。これは、ドキュメント トピック分類の下流タスクに対する入力フレーズの予測的影響を測定することにより、ドキュメント内の影響力のあるキーフレーズを識別するための自己説明モデルを使用するアプローチです。
この新しい方法は、アドホック ヒューリスティックの必要性を軽減するだけでなく、科学出版物とニュース記事の 2 つのドメインにわたる 4 つのデータセットで教師なしキーフレーズ抽出において最先端の結果を達成することも示します。


Keyphrase extraction aims at automatically extracting a list of ‘important’ phrases representing the key concepts in a document. Prior approaches for unsupervised keyphrase extraction resorted to heuristic notions of phrase importance via embedding clustering or graph centrality, requiring extensive domain expertise. Our work presents a simple alternative approach which defines keyphrases as document phrases that are salient for predicting the topic of the document. To this end, we propose INSPECT — an approach that uses self-explaining models for identifying influential keyphrases in a document by measuring the predictive impact of input phrases on the downstream task of the document topic classification. We show that this novel method not only alleviates the need for ad-hoc heuristics but also achieves state-of-the-art results in unsupervised keyphrase extraction in four datasets across two domains: scientific publications and news articles.


著者 Rishabh Joshi,Vidhisha Balachandran,Emily Saldanha,Maria Glenski,Svitlana Volkova,Yulia Tsvetkov
発行日 2023-02-17 17:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク