Do Large Language Models have Shared Weaknesses in Medical Question Answering?

要約

大規模言語モデル (LLM) は医療ベンチマークを急速に改善しましたが、その信頼性の低さは、現実世界で安全に使用する上で依然として課題となっています。
特定のモデルではなく、カテゴリとして LLM を使用できるように設計するには、モデル全体に​​現れる共通の長所と短所を理解する必要があります。
この課題に対処するために、さまざまな上位 LLM のベンチマークを実施し、モデル全体で一貫したパターンを特定します。
私たちは、ポーランドの医師免許試験から新たに収集された $874 の質問に対して $16$ の有名な LLM をテストします。
各質問について、トップ 1 の精度と割り当てられた確率の分布に基づいて各モデルをスコア付けします。
次に、これらの結果を、人間にとっての質問の難易度、質問の長さ、他のモデルのスコアなどの要素と比較します。
LLM の精度はペアごとに正の相関がありました ($0.39$ ~ $0.58$)。
モデルのパフォーマンスは人間のパフォーマンスとも相関していましたが ($0.09$ ~ $0.13$)、最高得点の人間と最低得点の人間の質問レベルの精度の差とは負の相関がありました ($-0.09$ ~ $-0.14$)。
上位の出力確率と質問の長さは、それぞれ精度の正と負の予測因子でした (p$< 0.05$)。 最高得点の LLM である GPT-4o Turbo は $84\%$ を獲得し、Claude Opus、Gemini 1.5 Pro、および Llama 3/3.1 は $74\%$ から $79\%$ の間でした。 私たちは、人間の受験者との類似点だけでなく、質問に正しく答えるモデル間の類似点の証拠を発見しました。 通常、モデルが大きいほどパフォーマンスが向上しますが、トレーニング、アーキテクチャ、データの違いも大きな影響を与えます。 モデルの精度は信頼度と正の相関がありましたが、質問の長さとは負の相関がありました。 私たちは古いモデルでも同様の結果を発見し、同様のトレーニング方法を使用する将来のモデルでもこれらのパターンが持続する可能性が高いと主張しています。

要約(オリジナル)

Large language models (LLMs) have made rapid improvement on medical benchmarks, but their unreliability remains a persistent challenge for safe real-world uses. To design for the use LLMs as a category, rather than for specific models, requires developing an understanding of shared strengths and weaknesses which appear across models. To address this challenge, we benchmark a range of top LLMs and identify consistent patterns across models. We test $16$ well-known LLMs on $874$ newly collected questions from Polish medical licensing exams. For each question, we score each model on the top-1 accuracy and the distribution of probabilities assigned. We then compare these results with factors such as question difficulty for humans, question length, and the scores of the other models. LLM accuracies were positively correlated pairwise ($0.39$ to $0.58$). Model performance was also correlated with human performance ($0.09$ to $0.13$), but negatively correlated to the difference between the question-level accuracy of top-scoring and bottom-scoring humans ($-0.09$ to $-0.14$). The top output probability and question length were positive and negative predictors of accuracy respectively (p$< 0.05$). The top scoring LLM, GPT-4o Turbo, scored $84\%$, with Claude Opus, Gemini 1.5 Pro and Llama 3/3.1 between $74\%$ and $79\%$. We found evidence of similarities between models in which questions they answer correctly, as well as similarities with human test takers. Larger models typically performed better, but differences in training, architecture, and data were also highly impactful. Model accuracy was positively correlated with confidence, but negatively correlated with question length. We find similar results with older models, and argue that these patterns are likely to persist across future models using similar training methods.

arxiv情報

著者 Andrew M. Bean,Karolina Korgul,Felix Krones,Robert McCraith,Adam Mahdi
発行日 2024-10-11 14:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク