Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

要約

大規模な言語モデル(LLM)が広くアクセスできるようになると、現実世界の使用を成功させるには、特定のドメイン内の知識の詳細な理解が必要になります。
これは、関連性があり、正確で、現在の情報を取得できないと、英国の住民に大きな影響を与える可能性がある公衆衛生において特に重要です。
ただし、現在、英国政府の公衆衛生情報に関するLLMの知識についてはほとんど知られていません。
この問題に対処するために、このペーパーでは、LLMSの複数選択質問(MCQA)と自動化されたパイプラインを介して作成された公衆衛生クエリに対する自由なフォーム応答を評価するための8000を超える質問を含む新しいベンチマークであるPubHealthbenchを紹介します。
また、PubHealthBenchのソーステキストとして使用される抽出された英国政府の公衆衛生ガイダンス文書の新しいデータセットもリリースします。
PubHealthBenchで24 LLMSの評価最新のプライベートLLMS(GPT-4.5、GPT-4.1およびO1)は高度な知識を持ち、MCQAセットアップで90%以上を達成し、大まかな検索エンジンの使用で人間を上回っています。
ただし、フリーフォームのセットアップでは、モデルのスコアリングが75%> 75%で、パフォーマンスが低くなります。
したがって、最先端(SOTA)LLMが公衆衛生情報のますます正確なソースであるという有望な兆候がありますが、公衆衛生のトピックに無料のフォーム応答を提供する際には、追加の保護手段またはツールが必要になる場合があります。

要約(オリジナル)

As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs’ Multiple Choice Question Answering (MCQA) and free form responses to public health queries, created via an automated pipeline. We also release a new dataset of the extracted UK Government public health guidance documents used as source text for PubHealthBench. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Therefore, whilst there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, additional safeguards or tools may still be needed when providing free form responses on public health topics.

arxiv情報

著者 Joshua Harris,Fan Grayson,Felix Feldman,Timothy Laurence,Toby Nonnenmacher,Oliver Higgins,Leo Loman,Selina Patel,Thomas Finnie,Samuel Collins,Michael Borowitz
発行日 2025-05-09 13:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.LG パーマリンク