要約
モデルが強化されるにつれて、評価はより複雑になり、1 つのベンチマークで、さらには同じインスタンスで一度に複数のスキルをテストするようになりました。
ただし、総合的な精度を検査する場合、最新のベンチマークに含まれる豊富な信号が十分に活用されていないため、スキルに関するパフォーマンスは不明瞭になります。
私たちは、モデルによって生成された理論的根拠を検査することによって、あらゆる評価インスタンスに関連する基礎的なスキルを回復するための自動アプローチを提案します。
$12$ のベンチマークに対する $46$k のインスタンスの理論的解析スキルと推論スキルの関連性を検証した後、多くのスキルがベンチマーク間で共通していることが観察され、その結果、数百のスキルスライス (つまり、共通のスキルをテストするインスタンスのセット) がキュレーションされました。
スキル)。
これらのスライスの精度を検査すると、モデルのトレードオフに関する新たな洞察が得られます。たとえば、GPT-4o や Claude 3.5 Sonnet と比較すると、Gemini 1.5 Pro は平均して「モル質量の計算」の精度が $18\%$ 高いものの、$19\% 精度が低くなります。
3 つのモデルの全体的な精度の差はわずか $0.4\%$ であるにもかかわらず、「憲法の適用」の精度は劣ります。
さらに、スキル スライス分析から得られた洞察が、保留されたインスタンスに一般化できることを示すことで、アプローチの実用性を実証します。関連するスキルに最も強いモデルに各インスタンスをルーティングすると、従来よりも $3\%$ の精度向上が見られます。
$12$ のデータセット コーパス。
当社のスキルスライスとフレームワークは、スキル固有の分析を活用して、モデルの機能をより詳細に、実用的に理解できるようにし、モデル評価に新たな道を開きます。
要約(オリジナル)
With models getting stronger, evaluations have grown more complex, testing multiple skills in one benchmark and even in the same instance at once. However, skill-wise performance is obscured when inspecting aggregate accuracy, under-utilizing the rich signal modern benchmarks contain. We propose an automatic approach to recover the underlying skills relevant for any evaluation instance, by way of inspecting model-generated rationales. After validating the relevance of rationale-parsed skills and inferring skills for $46$k instances over $12$ benchmarks, we observe many skills to be common across benchmarks, resulting in the curation of hundreds of skill-slices (i.e. sets of instances testing a common skill). Inspecting accuracy over these slices yields novel insights on model trade-offs: e.g., compared to GPT-4o and Claude 3.5 Sonnet, on average, Gemini 1.5 Pro is $18\%$ more accurate in ‘computing molar mass’, but $19\%$ less accurate in ‘applying constitutional law’, despite the overall accuracies of the three models differing by a mere $0.4\%$. Furthermore, we demonstrate the practical utility of our approach by showing that insights derived from skill slice analysis can generalize to held-out instances: when routing each instance to the model strongest on the relevant skills, we see a $3\%$ accuracy improvement over our $12$ dataset corpus. Our skill-slices and framework open a new avenue in model evaluation, leveraging skill-specific analyses to unlock a more granular and actionable understanding of model capabilities.
arxiv情報
著者 | Mazda Moayeri,Vidhisha Balachandran,Varun Chandrasekaran,Safoora Yousefi,Thomas Fel,Soheil Feizi,Besmira Nushi,Neel Joshi,Vibhav Vineet |
発行日 | 2024-10-24 17:27:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google