Contributions to the Improvement of Question Answering Systems in the Biomedical Domain


この論文の研究は、生物医学分野における質問応答 (QA) の枠組み内に収まり、専門用語や専門用語、扱われる質問の種類、対象となる文書の特性など、いくつかの特定の課題に対処します。
QA は、自然言語による質問に対して直接、短く、正確な回答を問い合わせ者に提供することを目的としています。
論文では、生物医学分野における QA のパフォーマンスを向上させるための 4 つの貢献を提案します。
私たちの最初の貢献では、生物医学 QA システムが適切な回答抽出方法を使用できるようにする、与えられた質問のタイプを決定する質問タイプ分類のための機械学習ベースの方法を提案します。
また、特定の回答を生成する際に非常に役立つ、期待される回答の意味論的なタイプを決定するために、与えられた質問に 1 つ以上のトピック (薬理学、検査、治療など) を割り当てる別の機械学習ベースの方法も提案します。
2 番目の寄稿では、まず、MEDLINE データベースから生物医学的な質問に対する回答が含まれる可能性のある一連の関連文書を取得する文書検索方法を提案します。
3 回目の寄稿では、正確な回答と理想的な回答の両方を生成するための具体的な回答抽出方法を提案します。
最後に、4 番目の貢献では、SemBioNLQA と呼ばれる完全に自動化されたセマンティック生物医学 QA システムを開発します。このシステムは、さまざまな自然言語の質問に対処し、正確な回答と理想的な回答の両方を提供することで適切な回答を生成できます。


This thesis work falls within the framework of question answering (QA) in the biomedical domain where several specific challenges are addressed, such as specialized lexicons and terminologies, the types of treated questions, and the characteristics of targeted documents. We are particularly interested in studying and improving methods that aim at finding accurate and short answers to biomedical natural language questions from a large scale of biomedical textual documents in English. QA aims at providing inquirers with direct, short and precise answers to their natural language questions. In this Ph.D. thesis, we propose four contributions to improve the performance of QA in the biomedical domain. In our first contribution, we propose a machine learning-based method for question type classification to determine the types of given questions which enable to a biomedical QA system to use the appropriate answer extraction method. We also propose an another machine learning-based method to assign one or more topics (e.g., pharmacological, test, treatment, etc.) to given questions in order to determine the semantic types of the expected answers which are very useful in generating specific answer retrieval strategies. In the second contribution, we first propose a document retrieval method to retrieve a set of relevant documents that are likely to contain the answers to biomedical questions from the MEDLINE database. We then present a passage retrieval method to retrieve a set of relevant passages to questions. In the third contribution, we propose specific answer extraction methods to generate both exact and ideal answers. Finally, in the fourth contribution, we develop a fully automated semantic biomedical QA system called SemBioNLQA which is able to deal with a variety of natural language questions and to generate appropriate answers by providing both exact and ideal answers.


著者 Mourad Sarrouti
発行日 2023-07-25 16:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク