OLAPH: Improving Factuality in Biomedical Long-form Question Answering

要約

医療分野では、多くのシナリオで大規模言語モデル (LLM) の長文生成機能が必要になります。
具体的には、患者の質問に答える場合、モデルの応答が事実に基づく主張を伝えることが重要であり、それらの主張を評価するための自動化された方法の必要性を強調します。
そこで、生物医学分野に関連する長文の質問応答データセットを使用して再構築されたベンチマーク データセットである MedLFQA を紹介します。
当社は MedLFQA を使用して、事実性のコスト効率の高い自動評価を促進します。
また、費用対効果の高い多面的な自動評価を利用して総合的な好みのセットを構築し、好みの方法で質問に答える、シンプルで斬新なフレームワークである OLAPH も提案します。
私たちのフレームワークは、幻覚を軽減し、重要な医学的主張を含めるために LLM を段階的に訓練することにつながります。
トレーニング中に使用されなかった評価指標であっても、OLAPH フレームワークでトレーニングされた LLM は事実上大幅なパフォーマンスの向上を示していることを強調します。
私たちの調査結果では、OLAPH フレームワークでトレーニングされた 7B LLM は、事実性の点で医療専門家の回答に匹敵する長い回答を提供できることが明らかになりました。
私たちは、私たちの研究が医療分野における LLM の長文生成能力の評価に光を当てることができると信じています。
コードとデータセットが利用可能です。

要約(オリジナル)

In the medical domain, numerous scenarios necessitate the long-form generation ability of large language models (LLMs). Specifically, when addressing patients’ questions, it is essential that the model’s response conveys factual claims, highlighting the need for an automated method to evaluate those claims. Thus, we introduce MedLFQA, a benchmark dataset reconstructed using long-form question-answering datasets related to the biomedical domain. We use MedLFQA to facilitate a cost-effective automatic evaluations of factuality. We also propose OLAPH, a simple and novel framework that utilizes cost-effective and multifaceted automatic evaluation to construct a synthetic preference set and answers questions in our preferred manner. Our framework leads us to train LLMs step-by-step to reduce hallucinations and include crucial medical claims. We highlight that, even on evaluation metrics not used during training, LLMs trained with our OLAPH framework demonstrate significant performance improvement in factuality. Our findings reveal that a 7B LLM trained with our OLAPH framework can provide long answers comparable to the medical experts’ answers in terms of factuality. We believe that our work could shed light on gauging the long-text generation ability of LLMs in the medical domain. Our code and datasets are available.

arxiv情報

著者 Minbyul Jeong,Hyeon Hwang,Chanwoong Yoon,Taewhoo Lee,Jaewoo Kang
発行日 2024-10-01 15:03:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク