Improving Health Question Answering with Reliable and Time-Aware Evidence Retrieval

要約

今日のデジタル世界では、インターネットで健康に関する質問の答えを探すのが一般的です。
しかし、既存の質問応答 (QA) システムは、事前に選択され、注釈が付けられた証拠文書の使用に依存していることが多く、新しい質問に対処するには不十分です。
私たちの研究は、オープンドメインの QA 環境に焦点を当てています。そこでの重要な課題は、まず大規模な知識ベースから関連する証拠を発見することです。
共通の取得してから読み取る QA パイプラインと、信頼できる医学研究文書のコレクションとしての PubMed を利用することで、私たちは 3 つの多様なデータセットから健康に関する質問に答えます。
さまざまな検索設定を変更して、取得された文書の数、文の選択プロセス、論文の出版年、引用数など、QA パイプラインのパフォーマンスへの影響を観察します。
私たちの結果は、検索される文書の量を削減し、より最近の引用度の高い文書を優先することで、最終的なマクロ F1 スコアを最大 10% 向上させることができることを明らかにしました。
結果について議論し、興味深い例を強調し、証拠の不一致の管理やユーザーフレンドリーな説明の作成など、今後の研究の課題を概説します。

要約(オリジナル)

In today’s digital world, seeking answers to health questions on the Internet is a common practice. However, existing question answering (QA) systems often rely on using pre-selected and annotated evidence documents, thus making them inadequate for addressing novel questions. Our study focuses on the open-domain QA setting, where the key challenge is to first uncover relevant evidence in large knowledge bases. By utilizing the common retrieve-then-read QA pipeline and PubMed as a trustworthy collection of medical research documents, we answer health questions from three diverse datasets. We modify different retrieval settings to observe their influence on the QA pipeline’s performance, including the number of retrieved documents, sentence selection process, the publication year of articles, and their number of citations. Our results reveal that cutting down on the amount of retrieved documents and favoring more recent and highly cited documents can improve the final macro F1 score up to 10%. We discuss the results, highlight interesting examples, and outline challenges for future research, like managing evidence disagreement and crafting user-friendly explanations.

arxiv情報

著者 Juraj Vladika,Florian Matthes
発行日 2024-04-12 09:56:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク