AlignBench: Benchmarking Chinese Alignment of Large Language Models

要約

調整は、命令調整された大規模言語モデル (LLM) が有用なアシスタントとなるための重要なステップとなっています。
しかし、中国の新興 LLM に対する効果的な調整の評価は依然として大幅に不足しており、調整に合わせて調整された、実際のシナリオに基づいた、自由な、挑戦的かつ自動評価が求められています。
このギャップを埋めるために、中国語で LLM のアラインメントを評価するための包括的な多次元ベンチマークである AlignBench を導入します。
人間参加型のデータキュレーションパイプラインを備えた当社のベンチマークは、思考連鎖を備えたルールで調整された多次元の裁判官としてのLLMを採用し、評価として説明と最終評価を生成し、高い信頼性と解釈可能性を保証します。
さらに、専用のコンパニオン評価 LLM — CritiqueLLM を開発しました。これは GPT-4 の評価能力の 95% を回復し、中国の LLM におけるアラインメントの評価のためにパブリック API を介して研究者に提供されます。
すべての評価コード、データ、LLM 生成は \url{https://github.com/THUDM/AlignBench} で入手できます。

要約(オリジナル)

Alignment has become a critical step for instruction-tuned Large Language Models (LLMs) to become helpful assistants. However, effective evaluation of alignment for emerging Chinese LLMs is still significantly lacking, calling for real-scenario grounded, open-ended, challenging and automatic evaluations tailored for alignment. To fill in this gap, we introduce AlignBench, a comprehensive multi-dimensional benchmark for evaluating LLMs’ alignment in Chinese. Equipped with a human-in-the-loop data curation pipeline, our benchmark employs a rule-calibrated multi-dimensional LLM-as-Judge with Chain-of-Thought to generate explanations and final ratings as evaluations, ensuring high reliability and interpretability. Furthermore, we developed a dedicated companion evaluator LLM — CritiqueLLM, which recovers 95\% of GPT-4’s evaluation ability and will be provided via public APIs to researchers for evaluation of alignment in Chinese LLMs. All evaluation codes, data, and LLM generations are available at \url{https://github.com/THUDM/AlignBench}.

arxiv情報

著者 Xiao Liu,Xuanyu Lei,Shengyuan Wang,Yue Huang,Zhuoer Feng,Bosi Wen,Jiale Cheng,Pei Ke,Yifan Xu,Weng Lam Tam,Xiaohan Zhang,Lichao Sun,Hongning Wang,Jing Zhang,Minlie Huang,Yuxiao Dong,Jie Tang
発行日 2023-11-30 17:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク