FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets

要約

大規模言語モデル (LLM) の評価は、指示に従うことが人間の価値観と一致する必要があり、必要なスキルのセットが指示によって異なるため、評価が困難です。
しかし、これまでの研究は主に粗粒度の評価(つまり全体的な好みに基づく評価)に焦点を当てており、インスタンスごとのスキル構成を必要とするユーザー指示の性質が考慮されていないため、解釈可能性が制限されていました。
このペーパーでは、人間ベースとモデルベースの両方の評価を行うためのきめ細かい評価プロトコルである FLASK (アライメント スキル セットに基づくきめ細かな言語モデル評価) を紹介します。これは、粗いレベルのスコアリングをスキル セット レベルのスコアリングに分解します。
それぞれの指示ごとに。
モデルのパフォーマンスの全体像を把握し、評価の信頼性を高めるには、評価の粒度が非常に重要であることが実験的に観察されています。
FLASK を使用して、複数のオープンソース LLM と独自の LLM を比較し、モデルベースの評価と人間ベースの評価の間に高い相関関係があることを観察しました。
評価データとコード実装は https://github.com/kaistAI/FLASK で公開しています。

要約(オリジナル)

Evaluation of Large Language Models (LLMs) is challenging because instruction-following necessitates alignment with human values and the required set of skills varies depending on the instruction. However, previous studies have mainly focused on coarse-grained evaluation (i.e. overall preference-based evaluation), which limits interpretability since it does not consider the nature of user instructions that require instance-wise skill composition. In this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on Alignment Skill Sets), a fine-grained evaluation protocol for both human-based and model-based evaluation which decomposes coarse-level scoring to a skill set-level scoring for each instruction. We experimentally observe that the fine-graininess of evaluation is crucial for attaining a holistic view of model performance and increasing the reliability of the evaluation. Using FLASK, we compare multiple open-source and proprietary LLMs and observe a high correlation between model-based and human-based evaluations. We publicly release the evaluation data and code implementation at https://github.com/kaistAI/FLASK.

arxiv情報

著者 Seonghyeon Ye,Doyoung Kim,Sungdong Kim,Hyeonbin Hwang,Seungone Kim,Yongrae Jo,James Thorne,Juho Kim,Minjoon Seo
発行日 2023-10-04 04:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク