要約
ウェブベースのデジタルアシスタントの需要の増加により、情報検索(IR)コミュニティの会話型質問応答(ConvQA)分野への関心が急速に高まっている。しかし、ConvQAの重要な側面の1つは、手元の質問に答えるための会話履歴の効果的な選択である。関連する履歴の選択と正しい答えの予測との間の依存関係は、興味深いが、まだ十分に研究されていない分野である。選択された関連する文脈は、通路のどこで答えを探すべきか、システムをより的確に導くことができる。一方、無関係な文脈はシステムにノイズをもたらし、モデルの性能を低下させる。本論文では、DHS-ConvQA(Dynamic History Selection in Conversational Question Answering)と呼ばれるフレームワークを提案する。また、質問に対する答えとしてどの程度有用であるかを計算した重みに基づいて、刈り込まれた用語を再ランク付けする注目ベースのメカニズムも提案する。最後に、二値分類タスクを用いて、再ランク付けされた会話履歴の用語を強調し、有用な用語(1として予測される)を保持し、無関係な用語(0として予測される)を無視することで、モデルをさらに支援する。提案するフレームワークの有効性を、ConvQAでよく利用される2つのデータセットであるCANARDとQuACを用いた広範な実験結果で実証する。関連するターンを選択することで、元の質問を書き換えるよりもうまくいくことを実証する。また、無関係な履歴ターンを追加することがモデルの性能にどのような悪影響を与えるかを調べ、IRコミュニティがより注意を払うべき研究課題について議論する。
要約(オリジナル)
The increasing demand for the web-based digital assistants has given a rapid rise in the interest of the Information Retrieval (IR) community towards the field of conversational question answering (ConvQA). However, one of the critical aspects of ConvQA is the effective selection of conversational history turns to answer the question at hand. The dependency between relevant history selection and correct answer prediction is an intriguing but under-explored area. The selected relevant context can better guide the system so as to where exactly in the passage to look for an answer. Irrelevant context, on the other hand, brings noise to the system, thereby resulting in a decline in the model’s performance. In this paper, we propose a framework, DHS-ConvQA (Dynamic History Selection in Conversational Question Answering), that first generates the context and question entities for all the history turns, which are then pruned on the basis of similarity they share in common with the question at hand. We also propose an attention-based mechanism to re-rank the pruned terms based on their calculated weights of how useful they are in answering the question. In the end, we further aid the model by highlighting the terms in the re-ranked conversational history using a binary classification task and keeping the useful terms (predicted as 1) and ignoring the irrelevant terms (predicted as 0). We demonstrate the efficacy of our proposed framework with extensive experimental results on CANARD and QuAC — the two popularly utilized datasets in ConvQA. We demonstrate that selecting relevant turns works better than rewriting the original question. We also investigate how adding the irrelevant history turns negatively impacts the model’s performance and discuss the research challenges that demand more attention from the IR community.
arxiv情報
著者 | Munazza Zaib,Wei Emma Zhang,Quan Z. Sheng,Subhash Sagar,Adnan Mahmood,Yang Zhang |
発行日 | 2023-08-04 12:59:39+00:00 |
arxivサイト | arxiv_id(pdf) |