Sentence Simplification Using Paraphrase Corpus for Initialization

要約

シーケンスツーシーケンスフレームワークに基づくニューラルセンテンス単純化手法は、センテンス単純化(SS)タスクの主流の手法となっています。
残念ながら、これらの方法は現在、並列 SS コーパスが不足しているため制限されています。
この論文では、言い換えコーパスからのニューラル SS メソッドの慎重な初期化を活用することで、並列コーパスへの依存を減らす方法に焦点を当てます。
私たちの研究は、次の 2 つの発見によって動機付けられています。 (1) 言い換えコーパスには、SS コーパスに属する文ペアの大部分が含まれています。
(2) これらの文ペアをより複雑度の差を持たせることで、大規模な擬似並列SSデータを構築することができる。
したがって、言い換えコーパスを使用してニューラル SS メソッドを初期化する 2 つの戦略を提案します。
初期化を使用して 3 つの異なるニューラル SS メソッドをトレーニングします。これにより、初期化を行わない場合と比較して、利用可能な WikiLarge データが大幅に改善されます。

要約(オリジナル)

Neural sentence simplification method based on sequence-to-sequence framework has become the mainstream method for sentence simplification (SS) task. Unfortunately, these methods are currently limited by the scarcity of parallel SS corpus. In this paper, we focus on how to reduce the dependence on parallel corpus by leveraging a careful initialization for neural SS methods from paraphrase corpus. Our work is motivated by the following two findings: (1) Paraphrase corpus includes a large proportion of sentence pairs belonging to SS corpus. (2) We can construct large-scale pseudo parallel SS data by keeping these sentence pairs with a higher complexity difference. Therefore, we propose two strategies to initialize neural SS methods using paraphrase corpus. We train three different neural SS methods with our initialization, which can obtain substantial improvements on the available WikiLarge data compared with themselves without initialization.

arxiv情報

著者 Kang Liu,Jipeng Qiang
発行日 2023-05-31 11:39:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク