Evaluating Large Language Models for Public Health Classification and Extraction Tasks

要約

大規模言語モデル (LLM) の進歩により、公衆衛生を含むさまざまな領域にわたって人間の専門家をサポートするその可能性に対する大きな関心が高まっています。
この研究では、フリーテキストの分類と抽出を含む公衆衛生タスクのための LLM の自動評価を紹介します。
6 つの外部注釈付きデータセットと 7 つの新しい内部注釈付きデータセットを組み合わせて、健康負荷、疫学的危険因子、公衆衛生介入に関連するテキストを処理するための LLM を評価します。
最初に、ゼロショット インコンテキスト学習を使用して、すべてのタスクにわたって 5 つのオープンウェイト LLM (70 ~ 700 億パラメーター) を評価します。
Llama-3-70B-Instruct が最もパフォーマンスの高いモデルであり、15/17 タスクで最良の結果を達成していることがわかりました (micro-F1 スコアを使用)。
タスク間で大きなばらつきが見られ、接触者分類などのいくつかの難しいタスクではすべてのオープンウェイト LLM のマイクロ F1 スコアが 60% 未満でしたが、胃腸疾患分類などの他のタスクではすべての LLM が 80% 以上のマイクロ F1 を達成しました。
12 個のタスクのサブセットについては、GPT-4 も評価し、Llama-3-70B-Instruct と同等の結果が得られました。Llama-3-70B-Instruct は、12 個のタスクのうち 6 個のタスクで GPT-4 と同等またはそれを上回るスコアを示しました。
全体として、これらの初期結果に基づいて、LLM は公衆衛生の専門家にとって、さまざまなフリーテキストソースから情報を抽出し、公衆衛生の監視、研究、介入をサポートするための有用なツールである可能性があるという有望な兆候が見つかりました。

要約(オリジナル)

Advances in Large Language Models (LLMs) have led to significant interest in their potential to support human experts across a range of domains, including public health. In this work we present automated evaluations of LLMs for public health tasks involving the classification and extraction of free text. We combine six externally annotated datasets with seven new internally annotated datasets to evaluate LLMs for processing text related to: health burden, epidemiological risk factors, and public health interventions. We initially evaluate five open-weight LLMs (7-70 billion parameters) across all tasks using zero-shot in-context learning. We find that Llama-3-70B-Instruct is the highest performing model, achieving the best results on 15/17 tasks (using micro-F1 scores). We see significant variation across tasks with all open-weight LLMs scoring below 60% micro-F1 on some challenging tasks, such as Contact Classification, while all LLMs achieve greater than 80% micro-F1 on others, such as GI Illness Classification. For a subset of 12 tasks, we also evaluate GPT-4 and find comparable results to Llama-3-70B-Instruct, which scores equally or outperforms GPT-4 on 6 of the 12 tasks. Overall, based on these initial results we find promising signs that LLMs may be useful tools for public health experts to extract information from a wide variety of free text sources, and support public health surveillance, research, and interventions.

arxiv情報

著者 Joshua Harris,Timothy Laurence,Leo Loman,Fan Grayson,Toby Nonnenmacher,Harry Long,Loes WalsGriffith,Amy Douglas,Holly Fountain,Stelios Georgiou,Jo Hardstaff,Kathryn Hopkins,Y-Ling Chi,Galena Kuyumdzhieva,Lesley Larkin,Samuel Collins,Hamish Mohammed,Thomas Finnie,Luke Hounsome,Steven Riley
発行日 2024-05-23 16:33:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.LG パーマリンク