要約
現在の大規模な言語モデル(LLMS)ベンチマークは、多くの場合、人間の労働の要件を回避する自由または密接なQA評価に基づいています。
密接な測定値は、応答の事実を評価しますが、表現力がありません。
オープンエンドでは、談話の反応を生み出すモデルの能力をキャプチャしますが、正確性を評価するのは困難です。
これらの2つのアプローチは、独立または一緒に一般的に使用されますが、その関係はよく理解されていません。
この作業は、事実と談話の両方が非常に重要なヘルスケアドメインに焦点を当てています。
ヘルスケアLLM評価のための包括的な多軸スイートを導入し、オープンベンチマークとメトリックの間の相関関係を調査します。
調査結果には、盲点と現在の方法論の重複が含まれます。
更新された正気チェックとして、オープンバリアントと閉じたバリアントの両方を使用して、新しい医療ベンチマーク(Careqa)をリリースします。
最後に、特定された制限を緩和するために、自由回答形式の評価(溶解した困惑)のための新しいメトリックを提案します。
要約(オリジナル)
Current Large Language Models (LLMs) benchmarks are often based on open-ended or close-ended QA evaluations, avoiding the requirement of human labor. Close-ended measurements evaluate the factuality of responses but lack expressiveness. Open-ended capture the model’s capacity to produce discourse responses but are harder to assess for correctness. These two approaches are commonly used, either independently or together, though their relationship remains poorly understood. This work is focused on the healthcare domain, where both factuality and discourse matter greatly. It introduces a comprehensive, multi-axis suite for healthcare LLM evaluation, exploring correlations between open and close benchmarks and metrics. Findings include blind spots and overlaps in current methodologies. As an updated sanity check, we release a new medical benchmark–CareQA–, with both open and closed variants. Finally, we propose a novel metric for open-ended evaluations –Relaxed Perplexity– to mitigate the identified limitations.
arxiv情報
著者 | Anna Arias-Duart,Pablo Agustin Martin-Torres,Daniel Hinjos,Pablo Bernabeu-Perez,Lucia Urcelay Ganzabal,Marta Gonzalez Mallo,Ashwin Kumar Gururajan,Enrique Lopez-Cuena,Sergio Alvarez-Napagao,Dario Garcia-Gasulla |
発行日 | 2025-02-10 16:52:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google