SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages

要約

関連する背景情報の追加やコンテンツの並べ替えなど、多くの望ましい編集には文書レベルのコンテキストが必要な場合がありますが、テキスト簡略化の研究は主に文レベルの簡略化に焦点を当ててきました。
また、これまでの研究では、主に単純化を単一ステップの入力から出力のタスクとして枠組み化しており、単純化プロセスを解明するきめの細かいスパンレベルの編集を暗黙的にモデル化するだけでした。
両方のギャップに対処するために、SWiPE データセットを導入します。これは、英語版 Wikipedia (EW) の記事からペアの Simple Wikipedia (SEW) 記事へのドキュメント レベルの編集プロセスを再構築します。
以前の作業とは対照的に、SWiPE はページをペアリングするときに、簡略化編集をより適切に識別するために改訂履歴全体を活用します。
私たちはウィキペディアの編集者と協力して、5,000 の EW-SEW 文書ペアに注釈を付け、提案されている 19 のカテゴリで 40,000 を超える編集にラベルを付けています。
私たちの取り組みを拡大するために、編集に自動的にラベルを付けるいくつかのモデルを提案し、最大 70.6 の F-1 スコアを達成しました。これは、これが扱いやすいものの、困難な NLU タスクであることを示しています。
最後に、いくつかの単純化モデルによって生成された編集を分類し、SWiPE でトレーニングされたモデルは、不要な編集を削減しながら、より複雑な編集を生成することがわかりました。

要約(オリジナル)

Text simplification research has mostly focused on sentence-level simplification, even though many desirable edits – such as adding relevant background information or reordering content – may require document-level context. Prior work has also predominantly framed simplification as a single-step, input-to-output task, only implicitly modeling the fine-grained, span-level edits that elucidate the simplification process. To address both gaps, we introduce the SWiPE dataset, which reconstructs the document-level editing process from English Wikipedia (EW) articles to paired Simple Wikipedia (SEW) articles. In contrast to prior work, SWiPE leverages the entire revision history when pairing pages in order to better identify simplification edits. We work with Wikipedia editors to annotate 5,000 EW-SEW document pairs, labeling more than 40,000 edits with proposed 19 categories. To scale our efforts, we propose several models to automatically label edits, achieving an F-1 score of up to 70.6, indicating that this is a tractable but challenging NLU task. Finally, we categorize the edits produced by several simplification models and find that SWiPE-trained models generate more complex edits while reducing unwanted edits.

arxiv情報

著者 Philippe Laban,Jesse Vig,Wojciech Kryscinski,Shafiq Joty,Caiming Xiong,Chien-Sheng Wu
発行日 2023-05-30 16:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク