要約
人間の価値観に合わせるには複数のスキルを構成する必要があり、必要なスキルのセットは指導によって異なるため、大規模言語モデル (LLM) の評価は困難です。
最近の研究では、LLM のパフォーマンスを 2 つの方法で評価しています。(1) いくつかの独立したベンチマークでの自動評価、および (2) 応答に全体的なスコアを与える人間または機械ベースの評価です。
ただし、どちらの設定も大まかな評価であり、インスタンスごとのスキル構成を必要とするユーザー命令の性質が考慮されていないため、LLM の真の機能の解釈が制限されます。
このペーパーでは、大まかなレベルのスコアリングをインスタンスごとのスキル セット レベルに分解する、モデル ベースと人間ベースの両方の評価に使用できるきめの細かい評価プロトコルである FLASK (アライメント スキル セットに基づくきめの細かい言語モデル評価) を紹介します。
具体的には、LLM が自由形式のユーザー指示に従うために必要な 12 のきめ細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築します。
さらに、各インスタンスのターゲット ドメインと難易度レベルに注釈を付けることで、FLASK はスキル、ドメイン、難易度に応じたモデルのパフォーマンスの包括的な分析を含む全体的なビューを提供します。
FLASK を使用することで、複数のオープンソース LLM と独自の LLM を比較し、モデルベースの評価と人間ベースの評価の間に相関性の高い結果を観察しました。
FLASK を使用すると、開発者はモデルのパフォーマンスをより正確に測定し、LLM が特定のスキルに習熟する要因を分析することでモデルのパフォーマンスをどのように改善できるかをより正確に測定できるようになります。
実務者にとって、FLASK を使用すると、さまざまな LLM 間の包括的な比較を通じて、特定の状況に適したモデルを推奨できます。
評価データとコード実装は https://github.com/kaistAI/FLASK で公開しています。
要約(オリジナル)
Evaluation of Large Language Models (LLMs) is challenging because aligning to human values requires the composition of multiple skills and the required set of skills varies depending on the instruction. Recent studies have evaluated the performance of LLMs in two ways, (1) automatic evaluation on several independent benchmarks and (2) human or machined-based evaluation giving an overall score to the response. However, both settings are coarse-grained evaluations, not considering the nature of user instructions that require instance-wise skill composition, which limits the interpretation of the true capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation protocol that can be used for both model-based and human-based evaluation which decomposes coarse-level scoring to an instance-wise skill set-level. Specifically, we define 12 fine-grained skills needed for LLMs to follow open-ended user instructions and construct an evaluation set by allocating a set of skills for each instance. Additionally, by annotating the target domains and difficulty level for each instance, FLASK provides a holistic view with a comprehensive analysis of a model’s performance depending on skill, domain, and difficulty. Through using FLASK, we compare multiple open-sourced and proprietary LLMs and observe highly-correlated findings between model-based and human-based evaluations. FLASK enables developers to more accurately measure the model performance and how it can be improved by analyzing factors that make LLMs proficient in particular skills. For practitioners, FLASK can be used to recommend suitable models for particular situations through comprehensive comparison among various LLMs. We release the evaluation data and code implementation at https://github.com/kaistAI/FLASK.
arxiv情報
著者 | Seonghyeon Ye,Doyoung Kim,Sungdong Kim,Hyeonbin Hwang,Seungone Kim,Yongrae Jo,James Thorne,Juho Kim,Minjoon Seo |
発行日 | 2023-07-20 14:56:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google