Natural Response Generation for Chinese Reading Comprehension

要約

機械読解 (MRC) は、会話エージェントの重要な領域であり、多くの注目を集めています。
ただし、現在の MRC ベンチマークには顕著な制限があります。ラベル付けされた回答は、ほとんどの場合、ターゲット コーパスから抽出されたスパンか、指定された候補の選択のいずれかであり、高品質の回答の自然な側面は無視されています。
その結果、これらのデータセットでトレーニングされた MRC モデルは、実際の QA シナリオで人間のような応答を生成できません。
この目的のために、ペンギンと呼ばれる新しいデータセットを構築して、MRC の研究を促進し、実際のシナリオに対する自然な応答生成のためのトレーニングとテスト ベッドを提供します。
具体的には、Penguin は 200,000 のトレーニング データで構成されており、高品質で流暢で十分な情報に基づいた応答を返します。
Penguin は、比較的大規模な中国の MRC における自然な反応の生成に向けた最初のベンチマークです。
Penguin の課題に対処するために、エンド ツー エンドおよび 2 段階のフレームワークという 2 つの強力なベースラインを開発しています。
それに続いて、Prompt-BART をさらに設計します。Penguin のプレフィックス プロンプトを組み合わせて、事前にトレーニングされた生成言語モデルを微調整します。
広範な実験により、この設計の有効性が検証されました。

要約(オリジナル)

Machine reading comprehension (MRC) is an important area of conversation agents and draws a lot of attention. However, there is a notable limitation to current MRC benchmarks: The labeled answers are mostly either spans extracted from the target corpus or the choices of the given candidates, ignoring the natural aspect of high-quality responses. As a result, MRC models trained on these datasets can not generate human-like responses in real QA scenarios. To this end, we construct a new dataset called Penguin to promote the research of MRC, providing a training and test bed for natural response generation to real scenarios. Concretely, Penguin consists of 200k training data with high-quality fluent, and well-informed responses. Penguin is the first benchmark towards natural response generation in Chinese MRC on a relatively large scale. To address the challenges in Penguin, we develop two strong baselines: end-to-end and two-stage frameworks. Following that, we further design Prompt-BART: fine-tuning the pre-trained generative language models with a mixture of prefix prompts in Penguin. Extensive experiments validated the effectiveness of this design.

arxiv情報

著者 Nuo Chen,Hongguang Li,Yinan Bao,Baoyuan Wang,Jia Li
発行日 2023-02-17 11:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク