EntropyRank: Unsupervised Keyphrase Extraction via Side-Information Optimization for Language Model-based Text Compression

要約

我々は、事前に訓練された言語モデル(LM)とシャノンの情報最大化に基づいてテキストからキーワードとキーフレーズを抽出する教師なしの方法を提案します。
具体的には、我々の方法は、LMの下で最も高い条件付きエントロピーを有するフレーズを抽出します。
結果として得られるキーフレーズのセットは、関連する情報理論的な問題を解決することが判明します。追加情報として提供された場合、LM とエントロピー エンコーダーを使用してテキストを圧縮する際に、予想される最小のバイナリ コード長が得られます。
あるいは、結果として得られるセットは、条件付けされたときにテキストのエントロピーを最小化するフレーズのセットに対する因果的 LM を介した近似です。
経験的に、この方法は、さまざまなキーフレーズ抽出ベンチマークの課題で最も一般的に使用される方法と同等の結果を提供します。

要約(オリジナル)

We propose an unsupervised method to extract keywords and keyphrases from texts based on a pre-trained language model (LM) and Shannon’s information maximization. Specifically, our method extracts phrases having the highest conditional entropy under the LM. The resulting set of keyphrases turns out to solve a relevant information-theoretic problem: if provided as side information, it leads to the expected minimal binary code length in compressing the text using the LM and an entropy encoder. Alternately, the resulting set is an approximation via a causal LM to the set of phrases that minimize the entropy of the text when conditioned upon it. Empirically, the method provides results comparable to the most commonly used methods in various keyphrase extraction benchmark challenges.

arxiv情報

著者 Alexander Tsvetkov,Alon Kipnis
発行日 2023-08-29 18:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, cs.LG, math.IT パーマリンク