要約
私たちは、会議記録に対する自然言語の質問応答のためのデータセットである MeeQA を紹介します。
会議中に参加者から寄せられた実際の質問が含まれています。
データセットには、複数のドメインにわたる 422 の会議記録から抽出された 48,000 の質問と回答のペアが含まれています。
トランスクリプト内の質問は、必ずしも明確であるとは限らず、回答するにはかなりのコンテキストが必要な場合があるため、特別な課題が生じます。
さらに、会議中に尋ねられた多くの質問は未回答のままです。
このタイプの質問に対するベースライン モデルのパフォーマンスを向上させるために、テキストに回答のない質問に対するパフォーマンスを向上させるように設計された新しい損失関数 \emph{Flat Hierarchical Loss} も提案します。
私たちの実験は、標準の QA モデルよりも私たちのアプローチを使用する利点を示しています。
要約(オリジナル)
We present MeeQA, a dataset for natural-language question answering over meeting transcripts. It includes real questions asked during meetings by its participants. The dataset contains 48K question-answer pairs, extracted from 422 meeting transcripts, spanning multiple domains. Questions in transcripts pose a special challenge as they are not always clear, and considerable context may be required in order to provide an answer. Further, many questions asked during meetings are left unanswered. To improve baseline model performance on this type of questions, we also propose a novel loss function, \emph{Flat Hierarchical Loss}, designed to enhance performance over questions with no answer in the text. Our experiments demonstrate the advantage of using our approach over standard QA models.
arxiv情報
著者 | Reut Apel,Tom Braude,Amir Kantor,Eyal Kolman |
発行日 | 2023-05-15 10:02:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google