Conversational Question Answering on Heterogeneous Sources

要約

会話型質問応答 (ConvQA) は、フォローアップの質問のコンテキストが暗黙的に残されたまま、逐次的な情報のニーズに取り組みます。
現在の ConvQA システムは、ナレッジ ベース (KB)、テキスト コーパス、またはテーブルのコレクションなどの同種の情報ソース上で動作します。
この文書では、これらすべてを共同で活用するという新しい問題を取り上げ、これにより回答範囲と信頼性を高めます。
異種ソースを介した ConvQA のエンドツーエンド パイプラインである CONVINS は、次の 3 つの段階で動作します。i) 受信した質問とその会話コンテキストの明示的な構造化表現を学習し、ii) このフレームのような表現を利用して、関連する質問を均一にキャプチャします。
KB、テキスト、表からの証拠、および iii) デコーダ内融合モデルを実行して答えを生成します。
私たちは、異種ソース上の ConvQA 用の最初のベンチマーク ConvMix を構築してリリースします。これは、エンティティの注釈、完了した質問の発話、および質問の言い換えとともに、16000 の質問を含む 3000 件の実際のユーザーの会話で構成されます。
実験により、最先端のベースラインと比較して、私たちの方法の実行可能性と利点が実証されています。

要約(オリジナル)

Conversational question answering (ConvQA) tackles sequential information needs where contexts in follow-up questions are left implicit. Current ConvQA systems operate over homogeneous sources of information: either a knowledge base (KB), or a text corpus, or a collection of tables. This paper addresses the novel issue of jointly tapping into all of these together, this way boosting answer coverage and confidence. We present CONVINSE, an end-to-end pipeline for ConvQA over heterogeneous sources, operating in three stages: i) learning an explicit structured representation of an incoming question and its conversational context, ii) harnessing this frame-like representation to uniformly capture relevant evidences from KB, text, and tables, and iii) running a fusion-in-decoder model to generate the answer. We construct and release the first benchmark, ConvMix, for ConvQA over heterogeneous sources, comprising 3000 real-user conversations with 16000 questions, along with entity annotations, completed question utterances, and question paraphrases. Experiments demonstrate the viability and advantages of our method, compared to state-of-the-art baselines.

arxiv情報

著者 Philipp Christmann,Rishiraj Saha Roy,Gerhard Weikum
発行日 2023-06-30 12:32:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク