Top K Relevant Passage Retrieval for Biomedical Question Answering

要約

質問応答は、大量のドキュメントのコレクションを使用して事実上の質問に答えるタスクです。
ユーザーの質問に対して自然言語で正確な回答を提供することを目的としています。
質問応答は、候補コンテキストを選択するための効率的なパッセージ検索に依存しており、TF-IDF や BM25 などの従来のスパース ベクトル空間モデルが事実上の方法です。
ウェブ上では、ユーザーが尋ねた問題の質問に対して、インターネット上で入手可能なすべての回答を提供できる単一の記事はありません。
既存の密通路検索モデルは、質問に答えるためのソース文書として、2018 年 12 月 20 日の Wikipedia ダンプでトレーニングされています。
質問応答 (QA) は、大規模な注釈付きデータセットを使用して構築されたいくつかのオープンドメインおよび機械理解システムによって大きな進歩を遂げました。
しかし、臨床領域では、この問題は比較的未解明のままです。
複数の調査によると、ウィキペディアの記事から生物医学に関する質問に正しく答えることはできません。
この研究では、生物医学分野の既存の DPR フレームワークに取り組み、医学的な質問に答えるための信頼できる情報源である Pubmed の記事から回答を取得します。
BioASQ QA データセットで評価すると、微調整されたデンス リトリーバーの F1 スコアは 0.81 となりました。

要約(オリジナル)

Question answering is a task that answers factoid questions using a large collection of documents. It aims to provide precise answers in response to the user’s questions in natural language. Question answering relies on efficient passage retrieval to select candidate contexts, where traditional sparse vector space models, such as TF-IDF or BM25, are the de facto method. On the web, there is no single article that could provide all the possible answers available on the internet to the question of the problem asked by the user. The existing Dense Passage Retrieval model has been trained on Wikipedia dump from Dec. 20, 2018, as the source documents for answering questions. Question answering (QA) has made big strides with several open-domain and machine comprehension systems built using large-scale annotated datasets. However, in the clinical domain, this problem remains relatively unexplored. According to multiple surveys, Biomedical Questions cannot be answered correctly from Wikipedia Articles. In this work, we work on the existing DPR framework for the biomedical domain and retrieve answers from the Pubmed articles which is a reliable source to answer medical questions. When evaluated on a BioASQ QA dataset, our fine-tuned dense retriever results in a 0.81 F1 score.

arxiv情報

著者 Shashank Gupta
発行日 2023-08-08 04:06:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク