要約
AI の進歩は、モデルの機能を測定するタスクのパフォーマンスの向上を主張する新しいモデルによって実証されることがよくあります。
タスクでのモデルの評価方法を少し変更すると、測定されたパフォーマンスに大きな変化が生じる可能性があるため、言語モデルの評価は特に困難です。
共通の標準設定がないため、同じタスクに対して異なるモデルが異なる方法で評価され、どのモデルが最も優れたパフォーマンスを発揮するかについての主張が再現不可能につながります。
私たちは、再現可能な LLM 評価のための、完全に文書化された実用的なオープンスタンダードである OLMES を提案します。
この標準の開発にあたり、私たちは、プロンプトの書式設定の詳細、コンテキスト内の例の選択、確率の正規化、タスクの定式化など、コミュニティで採用されている評価慣行におけるさまざまな要素を特定してレビューします。
特に、OLMES は、多肢選択問題の不自然な「詰め込み」定式化を必要とする小規模な基本モデルと、元の定式化を利用できる大規模なモデルとの間の有意義な比較をサポートします。
OLMES には、既存の文献の結果と、未解決の疑問を調査する新しい実験に基づいた、よく検討された推奨事項が含まれています。
要約(オリジナル)
Progress in AI is often demonstrated by new models claiming improved performance on tasks measuring model capabilities. Evaluating language models in particular is challenging, as small changes to how a model is evaluated on a task can lead to large changes in measured performance. There is no common standard setup, so different models are evaluated on the same tasks in different ways, leading to claims about which models perform best not being reproducible. We propose OLMES, a completely documented, practical, open standard for reproducible LLM evaluations. In developing this standard, we identify and review the varying factors in evaluation practices adopted by the community – such as details of prompt formatting, choice of in-context examples, probability normalizations, and task formulation. In particular, OLMES supports meaningful comparisons between smaller base models that require the unnatural ‘cloze’ formulation of multiple-choice questions against larger models that can utilize the original formulation. OLMES includes well-considered recommendations guided by results from existing literature as well as new experiments investigating open questions.
arxiv情報
著者 | Yuling Gu,Oyvind Tafjord,Bailey Kuehl,Dany Haddad,Jesse Dodge,Hannaneh Hajishirzi |
発行日 | 2024-06-12 17:37:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google