要約
大規模言語モデル (LLM) を継続的に改善するには、効率的かつ正確な評価が不可欠です。
さまざまな評価手法の中でも、現実の利用シーンや人間の嗜好に即した主観評価が注目を集めています。
ただし、人による評価はコストがかかり、再現性に欠けるため、このプロセスでは正確な自動評価者 (ジャッジ) が不可欠になります。
このレポートでは、初のオープンソース \textbf{オールインワン} ジャッジ LLM である \textbf{CompassJudger-1} を紹介します。
CompassJudger-1 は、優れた多用途性を発揮する汎用 LLM です。
1. 報酬モデルとして単一スコアリングと 2 つのモデルの比較を実行します。
2. 所定のフォーマットに従って評価を実施すること。
3. 批評を生み出す。
4. 一般的な LLM と同様に多様なタスクを実行します。
統一された設定の下でさまざまな審査員モデルの評価能力を評価するために、さまざまな主観的な評価タスクを網羅し、幅広いトピックをカバーする新しいベンチマークである \textbf{JudgerBench} も確立しました。
CompassJudger-1 は、多様な要件に適応する柔軟性を維持しながら、さまざまな評価タスクに対する包括的なソリューションを提供します。
CompassJudger と JudgerBench は両方ともリリースされており、https://github.com/open-compass/CompassJudger で研究コミュニティに利用できます。
これらのツールをオープンソース化することで、コラボレーションを促進し、LLM 評価方法論の進歩を加速できると私たちは信じています。
要約(オリジナル)
Efficient and accurate evaluation is crucial for the continuous improvement of large language models (LLMs). Among various assessment methods, subjective evaluation has garnered significant attention due to its superior alignment with real-world usage scenarios and human preferences. However, human-based evaluations are costly and lack reproducibility, making precise automated evaluators (judgers) vital in this process. In this report, we introduce \textbf{CompassJudger-1}, the first open-source \textbf{all-in-one} judge LLM. CompassJudger-1 is a general-purpose LLM that demonstrates remarkable versatility. It is capable of: 1. Performing unitary scoring and two-model comparisons as a reward model; 2. Conducting evaluations according to specified formats; 3. Generating critiques; 4. Executing diverse tasks like a general LLM. To assess the evaluation capabilities of different judge models under a unified setting, we have also established \textbf{JudgerBench}, a new benchmark that encompasses various subjective evaluation tasks and covers a wide range of topics. CompassJudger-1 offers a comprehensive solution for various evaluation tasks while maintaining the flexibility to adapt to diverse requirements. Both CompassJudger and JudgerBench are released and available to the research community athttps://github.com/open-compass/CompassJudger. We believe that by open-sourcing these tools, we can foster collaboration and accelerate progress in LLM evaluation methodologies.
arxiv情報
著者 | Maosong Cao,Alexander Lam,Haodong Duan,Hongwei Liu,Songyang Zhang,Kai Chen |
発行日 | 2024-10-21 17:56:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google