Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks

要約

ヘルスケア情報抽出への大規模な言語モデル(LLMS)の適用は、有望なアプローチとして浮上しています。
この研究では、5つのオープンソースLLMSの分類パフォーマンスを評価します:Gemma-3-27B-IT、LLAMA3-70B、LLAMA4-109B、DeepSeek-R1-Distill-Lalama-70B、およびDeepSeek-V3-0324-UD-UUD-Q2_K_XLは、6つの医療関連の分類メディアに関与しています。
妊娠の有害転帰、潜在的なCOVID-19の症例)および臨床データ(スティグマの標識、投薬変更の議論)。
すべてのモデルタスクの組み合わせに対して、95%の信頼区間で精度、リコール、およびF1スコアを報告します。
私たちの調査結果は、LLM間の大きなパフォーマンスの変動性を明らかにしており、DeepSeekv3は全体的なパフォーマーの最強として浮上し、4つのタスクで最高のF1スコアを達成しています。
特に、モデルは一般に、臨床データタスクと比較してソーシャルメディアタスクで優れたパフォーマンスを発揮し、潜在的なドメイン固有の課題を示唆しています。
Gemma-3-27B-ITは、パラメーター数が小さいにもかかわらず非常に高いリコールを実証しましたが、Llama4-109bは前任者のLlama3-70bと比較して驚くほど圧倒的なパフォーマンスを示しました。
モデル間での明確な精密リコールトレードオフを観察しましたが、特異性に対する感度を好み、その逆も同様です。
これらの調査結果は、モデルサイズだけでなく、特定のデータドメインと精度リコール要件を考慮して、ヘルスケアアプリケーションのタスク固有のモデル選択の重要性を強調しています。
ヘルスケアがAI駆動型のテキスト分類ツールをますます統合するにつれて、この包括的なベンチマークは、ヘルスケアの文脈におけるLLMの継続的な評価とドメイン適応の必要性を強調しながら、モデルの選択と実装の貴重なガイダンスを提供します。

要約(オリジナル)

The application of large language models (LLMs) to healthcare information extraction has emerged as a promising approach. This study evaluates the classification performance of five open-source LLMs: GEMMA-3-27B-IT, LLAMA3-70B, LLAMA4-109B, DEEPSEEK-R1-DISTILL-LLAMA-70B, and DEEPSEEK-V3-0324-UD-Q2_K_XL, across six healthcare-related classification tasks involving both social media data (breast cancer, changes in medication regimen, adverse pregnancy outcomes, potential COVID-19 cases) and clinical data (stigma labeling, medication change discussion). We report precision, recall, and F1 scores with 95% confidence intervals for all model-task combinations. Our findings reveal significant performance variability between LLMs, with DeepSeekV3 emerging as the strongest overall performer, achieving the highest F1 scores in four tasks. Notably, models generally performed better on social media tasks compared to clinical data tasks, suggesting potential domain-specific challenges. GEMMA-3-27B-IT demonstrated exceptionally high recall despite its smaller parameter count, while LLAMA4-109B showed surprisingly underwhelming performance compared to its predecessor LLAMA3-70B, indicating that larger parameter counts do not guarantee improved classification results. We observed distinct precision-recall trade-offs across models, with some favoring sensitivity over specificity and vice versa. These findings highlight the importance of task-specific model selection for healthcare applications, considering the particular data domain and precision-recall requirements rather than model size alone. As healthcare increasingly integrates AI-driven text classification tools, this comprehensive benchmarking provides valuable guidance for model selection and implementation while underscoring the need for continued evaluation and domain adaptation of LLMs in healthcare contexts.

arxiv情報

著者 Yuting Guo,Abeed Sarker
発行日 2025-05-08 11:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク