MCTS: A Multi-Reference Chinese Text Simplification Dataset

要約

テキストの簡略化は、書き換え変換を適用することでテキストを理解しやすくすることを目的としています。
長い間、中国語の文章の簡略化に関する研究はほとんど行われていませんでした。
この現象の根本的な理由は、一般的な評価データの欠如です。
この論文では、マルチリファレンス中国語テキスト簡略化データセットである MCTS を紹介します。
データセットのアノテーション プロセスについて説明し、その詳細な分析を提供します。
さらに、いくつかの教師なしメソッドと高度な大規模言語モデルのパフォーマンスを評価します。
私たちは基礎的な作業を通じて中国語の文章の簡略化に関する基本的な理解を構築し、将来の研究の参考にしたいと考えています。
データは https://github.com/blcuicall/mcts で公開されています。

要約(オリジナル)

Text simplification aims to make the text easier to understand by applying rewriting transformations. There has been very little research on Chinese text simplification for a long time. The lack of generic evaluation data is an essential reason for this phenomenon. In this paper, we introduce MCTS, a multi-reference Chinese text simplification dataset. We describe the annotation process of the dataset and provide a detailed analysis of it. Furthermore, we evaluate the performance of some unsupervised methods and advanced large language models. We hope to build a basic understanding of Chinese text simplification through the foundational work and provide references for future research. We release our data at https://github.com/blcuicall/mcts.

arxiv情報

著者 Ruining Chong,Luming Lu,Liner Yang,Jinran Nie,Shuhan Zhou,Yaoxin Li,Erhong Yang
発行日 2023-06-05 11:46:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク