Unsupervised Keyphrase Extraction via Interpretable Neural Networks

要約

キーフレーズ抽出は、ドキュメント内の重要な概念を表す「重要な」フレーズのリストを自動的に抽出することを目的としています。
教師なしキーフレーズ抽出の以前のアプローチは、クラスタリングまたはグラフの中心性を埋め込むことにより、フレーズの重要性のヒューリスティックな概念に頼っていたため、広範なドメインの専門知識が必要でした。
私たちの仕事は、キーフレーズをドキュメントのトピックを予測するための顕著なドキュメント フレーズとして定義する単純な代替アプローチを提示します。
この目的のために、INSPECT を提案します。これは、ドキュメント トピック分類の下流タスクに対する入力フレーズの予測的影響を測定することにより、ドキュメント内の影響力のあるキーフレーズを識別するための自己説明モデルを使用するアプローチです。
この新しい方法は、アドホック ヒューリスティックの必要性を軽減するだけでなく、科学出版物とニュース記事の 2 つのドメインにわたる 4 つのデータセットで教師なしキーフレーズ抽出において最先端の結果を達成することも示します。

要約(オリジナル)

Keyphrase extraction aims at automatically extracting a list of ‘important’ phrases representing the key concepts in a document. Prior approaches for unsupervised keyphrase extraction resorted to heuristic notions of phrase importance via embedding clustering or graph centrality, requiring extensive domain expertise. Our work presents a simple alternative approach which defines keyphrases as document phrases that are salient for predicting the topic of the document. To this end, we propose INSPECT — an approach that uses self-explaining models for identifying influential keyphrases in a document by measuring the predictive impact of input phrases on the downstream task of the document topic classification. We show that this novel method not only alleviates the need for ad-hoc heuristics but also achieves state-of-the-art results in unsupervised keyphrase extraction in four datasets across two domains: scientific publications and news articles.

arxiv情報

著者 Rishabh Joshi,Vidhisha Balachandran,Emily Saldanha,Maria Glenski,Svitlana Volkova,Yulia Tsvetkov
発行日 2023-02-17 17:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク