Do Text Simplification Systems Preserve Meaning? A Human Evaluation via Reading Comprehension

要約

自動テキスト簡略化 (TS) は、テキストを書き換えるプロセスを自動化して、読みやすくすることを目的としています。
TS が有用であるための前提条件は、元のテキストの意味と一致する情報を伝える必要があることです。
しかし、現在の TS 評価プロトコルは、出力文が発生する文書コンテキストや人々がそれを理解する方法を考慮せずに、システム出力の単純さと意味の保持を評価します。
この研究では、読解問題を使用して、簡略化されたテキストが意味を保持しているかどうかを評価する人間の評価フレームワークを導入します。
このフレームワークにより、人間と9つの自動システムによる徹底的な人間によるテキスト評価が行われます。
トレーニング前の知識を活用する教師ありシステムは、自動制御可能な TS システムの中で読解 (RC) タスクで最高のスコアを達成します。
ただし、最高のパフォーマンスを発揮する教師ありシステムでも、少なくとも 14% の質問には苦戦しており、簡略化された内容に基づいて「回答不能」とマークされています。
さらに、既存の TS 評価指標と自動質問応答システムが、私たちが得た人間の判断にどのように近似しているかを調査します。

要約(オリジナル)

Automatic text simplification (TS) aims to automate the process of rewriting text to make it easier for people to read. A pre-requisite for TS to be useful is that it should convey information that is consistent with the meaning of the original text. However, current TS evaluation protocols assess system outputs for simplicity and meaning preservation without regard for the document context in which output sentences occur and for how people understand them. In this work, we introduce a human evaluation framework to assess whether simplified texts preserve meaning using reading comprehension questions. With this framework, we conduct a thorough human evaluation of texts by humans and by nine automatic systems. Supervised systems that leverage pre-training knowledge achieve the highest scores on the reading comprehension (RC) tasks amongst the automatic controllable TS systems. However, even the best-performing supervised system struggles with at least 14% of the questions, marking them as ‘unanswerable” based on simplified content. We further investigate how existing TS evaluation metrics and automatic question-answering systems approximate the human judgments we obtained.

arxiv情報

著者 Sweta Agrawal,Marine Carpuat
発行日 2024-02-28 11:16:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク