Comparing Llama3 and DeepSeekR1 on Biomedical Text Classification Tasks

要約

この研究では、2つのオープンソースの大型言語モデル(LLMS)-llama3-70bおよびdeepseekr1-distill-llama3-70b-on 6生物医学テキスト分類タスクのパフォーマンスを比較します。
4つのタスクにはソーシャルメディアからのデータが含まれ、2つのタスクは電子健康記録からの臨床ノートに焦点を当てており、すべての実験はゼロショット設定で実行されました。
精度、リコール、F1スコアを含むパフォーマンスメトリックは、95%の信頼区間とともに、各タスクについて測定されました。
結果は、Deepseekr1-Distill-llama3-70bが一般に、ほとんどのタスクでの精度の点でより良いパフォーマンスを発揮し、リコールの結果がさまざまであることを実証しました。
ゼロショットLLMSは一部のタスクで高いF1スコアを示しましたが、両方のソースからのデータについて、他のタスクではひどくパフォーマンスが低下しました。
調査結果は、特に精度とリコールのトレードオフを考慮する場合、健康関連のテキスト分類タスクの特定の要件によってモデル選択が導かれるべきであり、注釈付きデータが存在する場合、監視された分類アプローチはゼロショットLLMよりも信頼できる場合があることを示唆しています。

要約(オリジナル)

This study compares the performance of two open-source large language models (LLMs)-Llama3-70B and DeepSeekR1-distill-Llama3-70B-on six biomedical text classification tasks. Four tasks involve data from social media, while two tasks focus on clinical notes from electronic health records, and all experiments were performed in zero-shot settings. Performance metrics, including precision, recall, and F1 scores, were measured for each task, along with their 95% confidence intervals. Results demonstrated that DeepSeekR1-distill-Llama3-70B generally performs better in terms of precision on most tasks, with mixed results on recall. While the zero-shot LLMs demonstrated high F1 scores for some tasks, they grossly underperformed on others, for data from both sources. The findings suggest that model selection should be guided by the specific requirements of the health-related text classification tasks, particularly when considering the precision-recall trade-offs, and that, in the presence of annotated data, supervised classification approaches may be more reliable than zero-shot LLMs.

arxiv情報

著者 Yuting Guo,Abeed Sarker
発行日 2025-03-19 12:51:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク