要約
大規模な言語モデル(LLM)が広くアクセスできるようになると、現実世界の使用を成功させるには、特定のドメイン内の知識の詳細な理解が必要になります。
これは、関連性があり、正確で、現在の情報を取得できないと、英国の住民に大きな影響を与える可能性がある公衆衛生において特に重要です。
ただし、現在、英国政府の公衆衛生情報に関するLLMの知識についてはほとんど知られていません。
この問題に対処するために、このペーパーでは、LLMSの複数選択質問(MCQA)と公衆衛生の質問に対する無料のフォーム応答を評価するための8000を超える質問を含む新しいベンチマークであるPubHealthbenchを紹介します。
PubHealthBenchを作成するには、687の現在の英国政府のガイダンス文書から無料のテキストを抽出し、MCQAサンプルを生成するための自動パイプラインを実装します。
PubHealthBenchで24 LLMSの評価最新のプライベートLLMS(GPT-4.5、GPT-4.1、O1)は高度な知識を持ち、MCQAセットアップで90%以上の精度を達成し、大まかな検索エンジンの使用で人間を上回っています。
ただし、フリーフォームのセットアップでは、モデルのスコアリングが75%> 75%で、パフォーマンスが低くなります。
重要なことに、両方のセットアップでLLMが一般の人々を対象としたガイダンスに対してより高い精度を持っていることがわかります。
したがって、最先端のART(SOTA)LLMが公衆衛生情報のますます正確なソースであるという有望な兆候がありますが、公衆衛生のトピックに無料のフォーム応答を提供する際には、追加の保護手段またはツールが必要になる場合があります。
要約(オリジナル)
As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs’ Multiple Choice Question Answering (MCQA) and free form responses to public health queries. To create PubHealthBench we extract free text from 687 current UK government guidance documents and implement an automated pipeline for generating MCQA samples. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% accuracy in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Importantly we find in both setups LLMs have higher accuracy on guidance intended for the general public. Therefore, there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, but additional safeguards or tools may still be needed when providing free form responses on public health topics.
arxiv情報
著者 | Joshua Harris,Fan Grayson,Felix Feldman,Timothy Laurence,Toby Nonnenmacher,Oliver Higgins,Leo Loman,Selina Patel,Thomas Finnie,Samuel Collins,Michael Borowitz |
発行日 | 2025-05-15 15:14:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google