要約
会話型機械読解 (CMRC) タスクは、会話中の質問に答えることを目的としています。これは、応用範囲が広いため、近年注目を集めている研究テーマです。
ただし、各会話に静的なパッセージが割り当てられる既存の CMRC ベンチマークは、実際のシナリオと一致しません。
したがって、実際のシナリオに対するモデルの理解能力を合理的に評価することは困難です。
この目的を達成するために、最初の中国の CMRC ベンチマーク Orca を提案し、さらに、多様なドメインに対するモデルの汎化能力を評価するためのゼロショット/フューショット設定を提供します。
合計 4,742 ターンにわたる 831 件の話題の会話を収集します。
会話の各ターンには応答に関連する文章が割り当てられており、モデルの理解力をより合理的に評価することを目的としています。
会話のトピックはソーシャル メディア プラットフォームから収集され、実際のシナリオとの一貫性を保つよう 33 のドメインをカバーしています。
重要なのは、Orca の回答はすべて、以前のデータセットの特定の範囲や短いフレーズではなく、適切に注釈が付けられた自然な回答であることです。
さらに、Orca の課題に取り組むために 3 つの強力なベースラインを実装しています。
この結果は、CMRC ベンチマークの大きな課題を示しています。
データセットとチェックポイントは https://github.com/nuochenpku/Orca で入手できます。
要約(オリジナル)
The conversational machine reading comprehension (CMRC) task aims to answer questions in conversations, which has been a hot research topic in recent years because of its wide applications. However, existing CMRC benchmarks in which each conversation is assigned a static passage are inconsistent with real scenarios. Thus, model’s comprehension ability towards real scenarios are hard to evaluate reasonably. To this end, we propose the first Chinese CMRC benchmark Orca and further provide zero-shot/few-shot settings to evaluate model’s generalization ability towards diverse domains. We collect 831 hot-topic driven conversations with 4,742 turns in total. Each turn of a conversation is assigned with a response-related passage, aiming to evaluate model’s comprehension ability more reasonably. The topics of conversations are collected from social media platform and cover 33 domains, trying to be consistent with real scenarios. Importantly, answers in Orca are all well-annotated natural responses rather than the specific spans or short phrase in previous datasets. Besides, we implement three strong baselines to tackle the challenge in Orca. The results indicate the great challenge of our CMRC benchmark. Our datatset and checkpoints are available at https://github.com/nuochenpku/Orca.
arxiv情報
著者 | Nuo Chen,Hongguang Li,Junqing He,Yinan Bao,Xinshi Lin,Qi Yang,Jianfeng Liu,Ruyi Gan,Jiaxing Zhang,Baoyuan Wang,Jia Li |
発行日 | 2023-10-13 12:13:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google