要約
自動語彙簡略化は、馴染みがなく理解するのが難しい語彙項目を、より簡単で一般的な単語に置き換えるタスクです。
この論文では、スペイン語とカタロニア語の語彙簡略化のための新しいデータセットである MultiLS-SP/CA を紹介します。
このデータセットは、カタルーニャ語ではこの種のものとしては初めてのものであり、スペイン語で利用可能な自動語彙簡略化に関するスパース データへの大幅な追加です。
具体的には、MultiLS-SP は、語彙項目の理解の難しさのスカラー評価を含むスペイン語の最初のデータセットです。
さらに、このデータセットを使用した実験について説明します。これは、同じデータに対する将来の作業のベースラインとして機能します。
要約(オリジナル)
Automatic lexical simplification is a task to substitute lexical items that may be unfamiliar and difficult to understand with easier and more common words. This paper presents MultiLS-SP/CA, a novel dataset for lexical simplification in Spanish and Catalan. This dataset represents the first of its kind in Catalan and a substantial addition to the sparse data on automatic lexical simplification which is available for Spanish. Specifically, MultiLS-SP is the first dataset for Spanish which includes scalar ratings of the understanding difficulty of lexical items. In addition, we describe experiments with this dataset, which can serve as a baseline for future work on the same data.
arxiv情報
著者 | Stefan Bott,Horacio Saggion,Nelson Peréz Rojas,Martin Solis Salazar,Saul Calderon Ramirez |
発行日 | 2024-04-11 14:57:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google