CFBench: A Comprehensive Constraints-Following Benchmark for LLMs

要約

大規模言語モデル(LLM)が、自然言語の指示を理解し、それに従うことに長けていることは、洗練された実世界のアプリケーションに展開するために重要である。既存の評価は、主に断片的な制約や狭いシナリオに焦点を当てていますが、ユーザの視点からの制約の包括性と真正性を見落としています。このギャップを埋めるために、我々は、200以上の実生活シナリオと50以上のNLPタスクをカバーする1,000のキュレートされたサンプルを特徴とする、LLMのための大規模なComprehensive Constraints Following BenchmarkであるCFBenchを提案します。CFBenchは、実世界の命令から制約を丹念にコンパイルし、10の主要カテゴリと25以上のサブカテゴリを含む制約タイプの革新的な体系的フレームワークを構築し、各制約が命令内にシームレスに統合されていることを保証します。LLM出力の評価がユーザの認識と一致することを確実にするために、制約、指示、要求充足の様々な観点をカバーする、要求の優先順位付けと多次元評価基準を統合する先進的な方法論を提案します。CFBench上で現在の主要なLLMを評価することにより、制約への対応に改善の余地があることを明らかにし、さらに影響因子と強化戦略を調査する。データとコードは、https://github.com/PKU-Baichuan-MLSystemLab/CFBench で公開されている。

要約(オリジナル)

The adeptness of Large Language Models (LLMs) in comprehending and following natural language instructions is critical for their deployment in sophisticated real-world applications. Existing evaluations mainly focus on fragmented constraints or narrow scenarios, but they overlook the comprehensiveness and authenticity of constraints from the user’s perspective. To bridge this gap, we propose CFBench, a large-scale Comprehensive Constraints Following Benchmark for LLMs, featuring 1,000 curated samples that cover more than 200 real-life scenarios and over 50 NLP tasks. CFBench meticulously compiles constraints from real-world instructions and constructs an innovative systematic framework for constraint types, which includes 10 primary categories and over 25 subcategories, and ensures each constraint is seamlessly integrated within the instructions. To make certain that the evaluation of LLM outputs aligns with user perceptions, we propose an advanced methodology that integrates multi-dimensional assessment criteria with requirement prioritization, covering various perspectives of constraints, instructions, and requirement fulfillment. Evaluating current leading LLMs on CFBench reveals substantial room for improvement in constraints following, and we further investigate influencing factors and enhancement strategies. The data and code are publicly available at https://github.com/PKU-Baichuan-MLSystemLab/CFBench

arxiv情報

著者 Tao Zhang,Yanjun Shen,Wenjing Luo,Yan Zhang,Hao Liang,Tao Zhang,Fan Yang,Mingan Lin,Yujing Qiao,Weipeng Chen,Bin Cui,Wentao Zhang,Zenan Zhou
発行日 2024-08-02 09:03:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク