要約
自然言語処理において重要なテキストの簡略化は、特にこの分野ではあまり代表されていない言語である視覚障害のあるスペイン語話者などの特定のグループにとって、テキストをより理解しやすくすることを目的としています。
スペイン語では、テキスト簡略化システムの作成に使用できるデータセットがほとんどありません。
私たちの研究の主な目的は、スペイン語の金融テキスト簡略化データセットを開発することです。
確立された簡略化ルールを使用して、5,314 の複雑な文と簡略化された文のペアを含むデータセットを作成しました。
また、これらのシステムを使用したデータ拡張の実現可能性を評価するために、GPT-3、Tuner、および MT5 から生成された簡略化データセットと比較しました。
この原稿では、私たちのデータセットの特徴と他のシステムとの比較の結果を紹介します。
データセットは、Hugging face、saul1917/FEINA で入手できます。
要約(オリジナル)
Text simplification, crucial in natural language processing, aims to make texts more comprehensible, particularly for specific groups like visually impaired Spanish speakers, a less-represented language in this field. In Spanish, there are few datasets that can be used to create text simplification systems. Our research has the primary objective to develop a Spanish financial text simplification dataset. We created a dataset with 5,314 complex and simplified sentence pairs using established simplification rules. We also compared our dataset with the simplifications generated from GPT-3, Tuner, and MT5, in order to evaluate the feasibility of data augmentation using these systems. In this manuscript we present the characteristics of our dataset and the findings of the comparisons with other systems. The dataset is available at Hugging face, saul1917/FEINA.
arxiv情報
著者 | Nelson Perez-Rojas,Saul Calderon-Ramirez,Martin Solis-Salazar,Mario Romero-Sandoval,Monica Arias-Monge,Horacio Saggion |
発行日 | 2023-12-15 15:47:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google