要約
AIの進捗は、モデル機能を測定するタスクのパフォーマンスの向上を主張する新しいモデルによってしばしば実証されます。
言語モデルの評価は、タスクでモデルがどのように評価されるかの選択が測定されたパフォーマンスの大きな変化につながる可能性があるため、特に困難な場合があります。
一般的な標準セットアップはないため、同じタスクで異なる方法で異なるモデルが評価され、どのモデルが再現性がないことが最も効果的であるかについての主張につながります。
再現可能なLLM評価のための完全に文書化された実用的なオープン標準であるOlmesを提案します。
この基準の開発において、迅速なフォーマットの詳細、コンテキスト内の例の選択、確率の正常化、タスクの定式化など、コミュニティが採用した評価慣行のさまざまな要因を特定してレビューします。
特に、OLMESは、元の定式化を利用できる大規模なモデルに対する複数選択の質問の不自然な「クローズ」定式化を必要とする小さなベースモデル間の意味のある比較をサポートしています。
Olmesには、既存の文献の結果と、未解決の質問を解決する新しい実験によって導かれた、よく考えられた文書化された推奨事項が含まれています。
要約(オリジナル)
Progress in AI is often demonstrated by new models claiming improved performance on tasks measuring model capabilities. Evaluating language models can be particularly challenging, as choices of how a model is evaluated on a task can lead to large changes in measured performance. There is no common standard setup, so different models are evaluated on the same tasks in different ways, leading to claims about which models perform best not being reproducible. We propose OLMES, a completely documented, practical, open standard for reproducible LLM evaluations. In developing this standard, we identify and review the varying factors in evaluation practices adopted by the community – such as details of prompt formatting, choice of in-context examples, probability normalizations, and task formulation. In particular, OLMES supports meaningful comparisons between smaller base models that require the unnatural ‘cloze’ formulation of multiple-choice questions against larger models that can utilize the original formulation. OLMES includes well-considered, documented recommendations guided by results from existing literature as well as new experiments resolving open questions.
arxiv情報
著者 | Yuling Gu,Oyvind Tafjord,Bailey Kuehl,Dany Haddad,Jesse Dodge,Hannaneh Hajishirzi |
発行日 | 2025-02-11 18:59:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google