FollowEval: A Multi-Dimensional Benchmark for Assessing the Instruction-Following Capability of Large Language Models

要約

大規模言語モデル (LLM) の命令追従能力を効果的に評価することが最も重要です。
人間の指示に従えないモデルは、信頼性の高い有益な応答を提供できない可能性があります。
この目標を追求するために、これらのモデルの命令追従能力を評価するために、さまざまなベンチマークが構築されています。
ただし、これらのベンチマークは 1 つの言語に限定されており、自動化されたアプローチを使用して構築されているため、ベンチマークの適用性とそれに含まれるテスト例の品質が制限されます。
このギャップを埋めるために、このペーパーでは FollowEval ベンチマークを紹介します。
このベンチマークは英語と中国語の両方のインスタンスで構成されており、すべてのテスト例は人間の専門家によって作成されています。
さらに、FollowEval ベンチマークは、文字列操作、常識的推論、論理的推論、空間的推論、応答制約という命令の 5 つの重要な側面にわたって LLM を評価するように設計されています。
複雑さを高め、十分な課題を提示するために、各テスト例は複数の次元を評価するように設計されています。
FollowEval ベンチマークを使用してさまざまな LLM を評価したところ、そのパフォーマンスが人間のパフォーマンスよりも大幅に遅れていることがわかりました。
これは、これらのモデルの命令追従能力には改善の余地がかなりあることを浮き彫りにしています。

要約(オリジナル)

The effective assessment of the instruction-following ability of large language models (LLMs) is of paramount importance. A model that cannot adhere to human instructions might be not able to provide reliable and helpful responses. In pursuit of this goal, various benchmarks have been constructed to evaluate the instruction-following capacity of these models. However, these benchmarks are limited to a single language and are constructed using automated approaches, which restricts their applicability and the quality of the test examples they contain. To bridge this gap, we introduce the FollowEval benchmark in this paper. This benchmark is composed of instances in both English and Chinese, and all test examples are crafted by human experts. Furthermore, the FollowEval benchmark is designed to assess LLMs across five critical dimensions of instruction following: string manipulation, commonsense reasoning, logical reasoning, spatial reasoning, and response constraints. To enhance the complexity and present a sufficient challenge, each test example is designed to evaluate more than one dimension. We have evaluated various LLMs using the FollowEval benchmark and found that their performance significantly lags behind that of humans. This highlights the considerable room for improvement in the instruction-following ability of these models.

arxiv情報

著者 Yimin Jing,Renren Jin,Jiahao Hu,Huishi Qiu,Xiaohua Wang,Peng Wang,Deyi Xiong
発行日 2023-11-16 11:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク