Learning to Paraphrase Sentences to Different Complexity Levels

要約

文の簡略化は自然言語処理における活発な研究テーマであるが、隣接タスクである文の複雑化と同レベルの言い換えはそうではない。この3つのタスクのモデルを学習するために、我々は2つの新しい教師なしデータセットを提示する。1つは弱い分類器によりラベル付けされたデータセット、もう1つはルールベースのアプローチによりラベル付けされたデータセットであり、1つの教師ありデータセットと比較する。これら3つのデータセットを訓練に用い、マルチタスクとプロンプトの両戦略について広範な実験を行う。教師なし並列データで訓練された他のシステムと比較して、我々の弱い分類器でラベル付けされたデータセットで訓練されたモデルは、ASSET単純化ベンチマークにおいて最先端の性能を達成した。また、文レベルのターゲティングにおいても、我々のモデルは先行研究を凌駕している。最後に、ゼロショット設定の下で、一握りの大規模言語モデルがこれらのタスクでどのような性能を発揮するかを確立する。

要約(オリジナル)

While sentence simplification is an active research topic in NLP, its adjacent tasks of sentence complexification and same-level paraphrasing are not. To train models on all three tasks, we present two new unsupervised datasets. We compare these datasets, one labeled by a weak classifier and the other by a rule-based approach, with a single supervised dataset. Using these three datasets for training, we perform extensive experiments on both multitasking and prompting strategies. Compared to other systems trained on unsupervised parallel data, models trained on our weak classifier labeled dataset achieve state-of-the-art performance on the ASSET simplification benchmark. Our models also outperform previous work on sentence level targeting. Finally, we establish how a handful of Large Language Models perform on these tasks under a zero-shot setting.

arxiv情報

著者 Alison Chi,Li-Kuang Chen,Yi-Chen Chang,Shu-Hui Lee,Jason S. Chang
発行日 2023-08-04 09:43:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク