要約
医療分野では、多くのシナリオで大規模言語モデル (LLM) の長文生成機能が必要になります。
具体的には、患者の質問に答える場合、モデルの応答が事実に基づく主張を伝えることが重要であり、それらの主張を評価するための自動化された方法の必要性を強調します。
そこで、生物医学分野に関連する長文の質問応答データセットを使用して再構築されたベンチマーク データセットである MedLFQA を紹介します。
当社では、事実性の自動評価を容易にするために MedLFQA を使用しています。
また、自動評価による事実性の向上を可能にするシンプルで斬新なフレームワーク「OLAPH」を提案します。
OLAPH フレームワークは、サンプリング予測と好みの最適化を使用して幻覚を軽減するように LLM を反復的にトレーニングします。
言い換えれば、最高スコアの応答をサンプリング予測から導出された優先応答として繰り返し設定し、事実性を向上させる優先応答と一致するように LLM をトレーニングします。
トレーニング中に使用されなかった評価指標であっても、OLAPH フレームワークでトレーニングされた LLM は事実上大幅なパフォーマンスの向上を示していることを強調します。
私たちの調査結果では、OLAPH フレームワークでトレーニングされた 7B LLM は、事実性の点で医療専門家の回答に匹敵する長い回答を提供できることが明らかになりました。
私たちは、私たちの研究により、医療分野における LLM の長文生成能力の評価に光を当てることができると信じています。
コードとデータセットは https://github.com/dmis-lab/OLAPH}{https://github.com/dmis-lab/OLAPH で入手できます。
要約(オリジナル)
In the medical domain, numerous scenarios necessitate the long-form generation ability of large language models (LLMs). Specifically, when addressing patients’ questions, it is essential that the model’s response conveys factual claims, highlighting the need for an automated method to evaluate those claims. Thus, we introduce MedLFQA, a benchmark dataset reconstructed using long-form question-answering datasets related to the biomedical domain. We use MedLFQA to facilitate the automatic evaluations of factuality. We also propose OLAPH, a simple and novel framework that enables the improvement of factuality through automatic evaluations. The OLAPH framework iteratively trains LLMs to mitigate hallucinations using sampling predictions and preference optimization. In other words, we iteratively set the highest-scoring response as a preferred response derived from sampling predictions and train LLMs to align with the preferred response that improves factuality. We highlight that, even on evaluation metrics not used during training, LLMs trained with our OLAPH framework demonstrate significant performance improvement in factuality. Our findings reveal that a 7B LLM trained with our OLAPH framework can provide long answers comparable to the medical experts’ answers in terms of factuality. We believe that our work could shed light on gauging the long-text generation ability of LLMs in the medical domain. Our code and datasets are available at https://github.com/dmis-lab/OLAPH}{https://github.com/dmis-lab/OLAPH.
arxiv情報
| 著者 | Minbyul Jeong,Hyeon Hwang,Chanwoong Yoon,Taewhoo Lee,Jaewoo Kang | 
| 発行日 | 2024-05-21 11:50:16+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
