要約
膨大なデータから価値ある情報を効率的に取得することは、ビッグデータ時代における我々の研究目標となっている。テキスト要約技術は、この需要に応えるために継続的に開発されてきた。また、最近の研究では、自然言語処理(NLP)の様々なタスクにおいて、変換器ベースの事前学習済み言語モデルが大きな成功を収めていることが示されている。本稿では、中国語ニュース要約生成の問題と中国語へのTransformer構造の適用を目的として、Transformer構造に基づく中国語ニューステキスト要約モデル(CNsum)を提案し、THUCNewsなどの中国語データセットでテストする。実験の結果、CNsumはベースラインモデルよりも優れたROUGEスコアを達成し、このモデルの性能が優れていることが実証された。
要約(オリジナル)
Obtaining valuable information from massive data efficiently has become our research goal in the era of Big Data. Text summarization technology has been continuously developed to meet this demand. Recent work has also shown that transformer-based pre-trained language models have achieved great success on various tasks in Natural Language Processing (NLP). Aiming at the problem of Chinese news text summary generation and the application of Transformer structure on Chinese, this paper proposes a Chinese news text summarization model (CNsum) based on Transformer structure, and tests it on Chinese datasets such as THUCNews. The results of the conducted experiments show that CNsum achieves better ROUGE score than the baseline models, which verifies the outperformance of the model.
arxiv情報
著者 | Yu Zhao,Songping Huang,Dongsheng Zhou,Zhaoyun Ding,Fei Wang,Aixin Nian |
発行日 | 2025-03-03 15:07:28+00:00 |
arxivサイト | arxiv_id(pdf) |