A User-Centered Evaluation of Spanish Text Simplification

要約

複雑な文と複雑な単語の識別の両方に焦点を当てた 2 つのコーパスを使用して、本番システムにおけるスペイン語のテキスト簡素化 (TS) の評価を示します。
私たちは、最も一般的なスペイン語特有の読みやすさスコアをニューラル ネットワークと比較し、後者の方が TS に関するユーザーの好みの予測において一貫して優れていることを示しました。
分析の一環として、多言語モデルは同じタスクにおいて同等のスペイン語のみのモデルに比べてパフォーマンスが劣っているにもかかわらず、すべてのモデルが文の長さなどの偽の統計的特徴に焦点を当てすぎていることがわかりました。
私たちは、スペイン語の自然言語処理における最先端の技術を推進することを期待して、評価対象のコーパスをより広範なコミュニティに公開します。

要約(オリジナル)

We present an evaluation of text simplification (TS) in Spanish for a production system, by means of two corpora focused in both complex-sentence and complex-word identification. We compare the most prevalent Spanish-specific readability scores with neural networks, and show that the latter are consistently better at predicting user preferences regarding TS. As part of our analysis, we find that multilingual models underperform against equivalent Spanish-only models on the same task, yet all models focus too often on spurious statistical features, such as sentence length. We release the corpora in our evaluation to the broader community with the hopes of pushing forward the state-of-the-art in Spanish natural language processing.

arxiv情報

著者 Adrian de Wynter,Anthony Hevia,Si-Qing Chen
発行日 2023-08-15 03:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク