要約
近年、ニューラルネットワークモデルの研究により、文章要約手法が再び注目を集めています。
ニューラル ネットワーク モデルに基づく現在のテキスト要約手法のほとんどは、大規模なデータセットを必要とする教師あり手法です。
ただし、実際のアプリケーションでは大規模なデータセットを取得するのは困難です。
この論文では、情報理論の観点から抽出テキスト要約手法のタスクをモデル化し、統一されたフレームワークを使用した教師なし抽出手法を説明します。
特徴分布を改善し、要約文の相互情報量を減らすために、既存の教師なし抽出手法に適用できる新しい文抽出戦略を提案します。
実験はさまざまなデータセットで実行され、結果は私たちの戦略が実際に効果的であり、期待に沿っていることを示しています。
要約(オリジナル)
In recent years, text summarization methods have attracted much attention again thanks to the researches on neural network models. Most of the current text summarization methods based on neural network models are supervised methods which need large-scale datasets. However, large-scale datasets are difficult to obtain in practical applications. In this paper, we model the task of extractive text summarization methods from the perspective of Information Theory, and then describe the unsupervised extractive methods with a uniform framework. To improve the feature distribution and to decrease the mutual information of summarization sentences, we propose a new sentence extraction strategy which can be applied to existing unsupervised extractive methods. Experiments are carried out on different datasets, and results show that our strategy is indeed effective and in line with expectations.
arxiv情報
著者 | Dehao Tao,Yingzhu Xiong,Zhongliang Yang,Yongfeng Huang |
発行日 | 2024-01-24 13:47:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google