Using Pretrained Large Language Model with Prompt Engineering to Answer Biomedical Questions

要約

私たちのチームは、BioASQ 2024 Task12b および Synergy タスクに参加し、PubMed データベースから関連する論文やスニペットを取得し、正確で理想的な回答を生成することで、生物医学の質問に答えることができるシステムを構築しました。
我々は、事前トレーニングされた大規模言語モデル (LLM) に基づく 2 レベルの情報検索および質問応答システムを提案します。LLM プロンプト エンジニアリングと応答後処理に焦点を当てています。
コンテキスト内の少数のショットの例を使用してプロンプトを構築し、リサンプリングや不正な応答の検出などの後処理技術を利用します。
この課題に関して、Mixtral、OpenAI GPT、Llama2 などのさまざまな事前トレーニング済み LLM モデルのパフォーマンスを比較します。
当社の最高のパフォーマンスのシステムは、タスク 12b の文書検索で 0.14 MAP スコア、スニペット検索で 0.05 MAP スコア、はい/いいえ質問で 0.96 F1 スコア、ファクトイド質問で 0.38 MRR スコア、およびリスト質問で 0.50 F1 スコアを達成しました。

要約(オリジナル)

Our team participated in the BioASQ 2024 Task12b and Synergy tasks to build a system that can answer biomedical questions by retrieving relevant articles and snippets from the PubMed database and generating exact and ideal answers. We propose a two-level information retrieval and question-answering system based on pre-trained large language models (LLM), focused on LLM prompt engineering and response post-processing. We construct prompts with in-context few-shot examples and utilize post-processing techniques like resampling and malformed response detection. We compare the performance of various pre-trained LLM models on this challenge, including Mixtral, OpenAI GPT and Llama2. Our best-performing system achieved 0.14 MAP score on document retrieval, 0.05 MAP score on snippet retrieval, 0.96 F1 score for yes/no questions, 0.38 MRR score for factoid questions and 0.50 F1 score for list questions in Task 12b.

arxiv情報

著者 Wenxin Zhou,Thuy Hang Ngo
発行日 2024-07-09 11:48:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク