要約
評価は、大規模言語モデル (LLM) を磨き、その機能を正確に特定し、機能強化を導く上で極めて重要です。
LLM の急速な開発には、迅速な評価展開のための軽量で使いやすいフレームワークが必要です。
ただし、さまざまな実装の詳細を考慮する必要があるため、包括的な評価プラットフォームの開発は決して簡単ではありません。
既存のプラットフォームは複雑でモジュール化が不十分なことが多く、研究者のワークフローへのシームレスな組み込みを妨げています。
この文書では、軽量、包括性、モジュール性、効率性を特徴とするユーザーフレンドリーな評価フレームワークである UltraEval を紹介します。
モデル評価の 3 つのコアコンポーネント (モデル、データ、メトリクス) を特定し、再実装します。
結果として得られる構成可能性により、統合された評価ワークフロー内でさまざまなモデル、タスク、プロンプト、メトリクスを自由に組み合わせることが可能になります。
さらに、UltraEval は統合された HTTP サービスにより多様なモデルをサポートし、十分な推論高速化を提供します。
UltraEval は現在研究者向けに公開されています~\footnote{ウェブサイトは \url{https://github.com/OpenBMB/UltraEval}} にあります。
要約(オリジナル)
Evaluation is pivotal for honing Large Language Models (LLMs), pinpointing their capabilities and guiding enhancements. The rapid development of LLMs calls for a lightweight and easy-to-use framework for swift evaluation deployment. However, due to the various implementation details to consider, developing a comprehensive evaluation platform is never easy. Existing platforms are often complex and poorly modularized, hindering seamless incorporation into researcher’s workflows. This paper introduces UltraEval, a user-friendly evaluation framework characterized by lightweight, comprehensiveness, modularity, and efficiency. We identify and reimplement three core components of model evaluation (models, data, and metrics). The resulting composability allows for the free combination of different models, tasks, prompts, and metrics within a unified evaluation workflow. Additionally, UltraEval supports diverse models owing to a unified HTTP service and provides sufficient inference acceleration. UltraEval is now available for researchers publicly~\footnote{Website is at \url{https://github.com/OpenBMB/UltraEval}}.
arxiv情報
著者 | Chaoqun He,Renjie Luo,Shengding Hu,Yuanqian Zhao,Jie Zhou,Hanghao Wu,Jiajie Zhang,Xu Han,Zhiyuan Liu,Maosong Sun |
発行日 | 2024-04-11 09:17:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google