PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

要約

大規模言語モデル (LLM) の命令チューニングは、ハイパーパラメーターの選択が複雑で、調整されたモデルの評価が難しいため、依然として困難な作業です。
最適なハイパーパラメータを決定するには、自動で堅牢かつ信頼性の高い評価ベンチマークが不可欠です。
ただし、評価の精度とプライバシー保護に関連する課題があるため、このようなベンチマークを確立することは簡単な作業ではありません。
これらの課題に対応して、いくつかの LLM が与えられた場合に優れたモデルを区別するようにトレーニングされた、PandaLM という名前の判断大規模言語モデルを導入します。
PandaLM の焦点は、従来の評価データセットの主な焦点である応答の客観的な正確さだけを超えています。
相対的な簡潔さ、明確さ、指示の順守、包括性、形式性などの重要な主観的要素に対処します。
PandaLM の信頼性を確保するために、人間が注釈を付けた多様なテスト データセットを収集します。このデータセットでは、すべてのコンテキストが人間によって生成され、ラベルが人間の好みに合わせて調整されています。
私たちの結果は、テスト データセットの F1 スコアに関して、PandaLM-7B が GPT-3.5 の評価能力の 93.75%、GPT-4 の評価能力の 88.28% を達成していることを示しています。
PandaLM を使用すると、LLM の評価をより公平にかつ低コストで行うことができます。これは、デフォルトの Alpaca のハイパーパラメータでトレーニングされたモデルと比較して、PandaLM を通じて調整されたモデルによって達成された大幅な改善によって証明されています。
さらに、PandaLM は API ベースの評価に依存しないため、データ漏洩の可能性を回避できます。
PandaLM のすべてのリソースは https://github.com/WeOpenML/PandaLM で公開されています。

要約(オリジナル)

Instruction tuning large language models (LLMs) remains a challenging task, owing to the complexity of hyperparameter selection and the difficulty involved in evaluating the tuned models. To determine the optimal hyperparameters, an automatic, robust, and reliable evaluation benchmark is essential. However, establishing such a benchmark is not a trivial task due to the challenges associated with evaluation accuracy and privacy protection. In response to these challenges, we introduce a judge large language model, named PandaLM, which is trained to distinguish the superior model given several LLMs. PandaLM’s focus extends beyond just the objective correctness of responses, which is the main focus of traditional evaluation datasets. It addresses vital subjective factors such as relative conciseness, clarity, adherence to instructions, comprehensiveness, and formality. To ensure the reliability of PandaLM, we collect a diverse human-annotated test dataset, where all contexts are generated by humans and labels are aligned with human preferences. Our results indicate that PandaLM-7B achieves 93.75% of GPT-3.5’s evaluation ability and 88.28% of GPT-4’s in terms of F1-score on our test dataset. PandaLM enables the evaluation of LLM to be fairer but with less cost, evidenced by significant improvements achieved by models tuned through PandaLM compared to their counterparts trained with default Alpaca’s hyperparameters. In addition, PandaLM does not depend on API-based evaluations, thus avoiding potential data leakage. All resources of PandaLM are released at https://github.com/WeOpenML/PandaLM.

arxiv情報

著者 Yidong Wang,Zhuohao Yu,Zhengran Zeng,Linyi Yang,Cunxiang Wang,Hao Chen,Chaoya Jiang,Rui Xie,Jindong Wang,Xing Xie,Wei Ye,Shikun Zhang,Yue Zhang
発行日 2023-06-08 10:41:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク