TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs

要約

大規模言語モデル (LLM) は、さまざまな自然言語タスクにわたって優れた機能を示しています。
しかし、人間の好みとの整合性を評価することは依然として課題です。
この目的を達成するために、現実世界の多様なタスクに関する指示に従う LLM の習熟度を評価するための包括的な人間評価フレームワークを提案します。
私たちは、200 を超えるカテゴリと 800 を超えるタスクをカバーする 7 つの主要領域を網羅する階層型タスク ツリーを構築します。これは、質問応答、推論、マルチターン ダイアログ、テキスト生成などのさまざまな機能をカバーし、包括的かつ詳細な方法で LLM を評価します。
また、人間の評価者による一貫性のある公平な判断を促進するために、詳細な評価基準とプロセスを設計します。
さまざまな難易度や知識領域にまたがる 3,000 を超えるインスタンスのテスト セットがリリースされています。
私たちの研究は、英語と中国語の両方の LLM における人間の整合性を評価するための標準化された方法論を提供します。
また、強力な LLM (GPT-4) を使用して評価の一部を自動化する実現可能性も分析します。
私たちのフレームワークは、現実世界のアプリケーションに統合される LLM の徹底的な評価をサポートします。
当社は、Tencent Hunyuan LLM のパフォーマンスを評価するのに効果的であることが実証されているタスク ツリー、TencentLLMEval データセット、評価方法論を一般公開しています。
そうすることで、安全で人間に合わせた LLM 開発の進歩のベンチマークを容易にすることを目指しています。

要約(オリジナル)

Large language models (LLMs) have shown impressive capabilities across various natural language tasks. However, evaluating their alignment with human preferences remains a challenge. To this end, we propose a comprehensive human evaluation framework to assess LLMs’ proficiency in following instructions on diverse real-world tasks. We construct a hierarchical task tree encompassing 7 major areas covering over 200 categories and over 800 tasks, which covers diverse capabilities such as question answering, reasoning, multiturn dialogue, and text generation, to evaluate LLMs in a comprehensive and in-depth manner. We also design detailed evaluation standards and processes to facilitate consistent, unbiased judgments from human evaluators. A test set of over 3,000 instances is released, spanning different difficulty levels and knowledge domains. Our work provides a standardized methodology to evaluate human alignment in LLMs for both English and Chinese. We also analyze the feasibility of automating parts of evaluation with a strong LLM (GPT-4). Our framework supports a thorough assessment of LLMs as they are integrated into real-world applications. We have made publicly available the task tree, TencentLLMEval dataset, and evaluation methodology which have been demonstrated as effective in assessing the performance of Tencent Hunyuan LLMs. By doing so, we aim to facilitate the benchmarking of advances in the development of safe and human-aligned LLMs.

arxiv情報

著者 Shuyi Xie,Wenlin Yao,Yong Dai,Shaobo Wang,Donlin Zhou,Lifeng Jin,Xinhua Feng,Pengzhi Wei,Yujie Lin,Zhichao Hu,Dong Yu,Zhengyou Zhang,Jing Nie,Yuhong Liu
発行日 2023-11-09 13:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク