S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Models

要約

大規模言語モデル (LLM) の急速な発展により、推論や長期コンテキストの理解などのモデル機能が大幅に進歩しました。
ただし、LLM がより長いコンテキストを処理できるようになると、LLM が処理できるテキストの長さ (例: 100,000 トークン) が人間が妥当な期間内に確実に評価できる長さをはるかに超えるため、LLM が特定の能力を獲得したかどうかを評価することがより困難になります。
この論文では、代理評価方法として複雑な合成タスクを使用することを提案し、LLM 評価のための合成、スケーラブル、体系的な評価スイートである S3Eval を紹介します。
合成ベンチマークとして、S3Eval を使用すると、LLM には理論的に認識できない評価例を任意の数だけ作成でき、テスト セットの汚染の問題が軽減されます。
S3Eval の合成的な性質により、ユーザーはデータセットを完全に制御できるため、テキストの長さを調整したり、さまざまなシナリオでタスクの難易度を変更したりすることで、LLM の機能を体系的に調べることができます。
S3Eval のパフォーマンスと Big-Bench Hard (BBH) などの現実世界のベンチマークのスコアとの間に強い相関関係があることは、LLM の評価に S3Eval を使用することが健全であることを示しています。
詳細な分析により、答えがまばらに分散している場合や中間のコンテキストに位置している場合のパフォーマンスの低下や、モデルのパフォーマンスの直観に反する傾向など、追加の洞察も明らかになります。

要約(オリジナル)

The rapid development of Large Language Models (LLMs) has led to great strides in model capabilities like reasoning and long-context understanding. However, as LLMs are able to process longer contexts, it becomes more challenging to evaluate whether they have acquired certain capabilities, since the length of text (e.g., 100K tokens) they can process far exceeds what humans can reliably assess in a reasonable duration. In this paper, we propose using complex synthetic tasks as a proxy evaluation method, and present S3Eval, a Synthetic, Scalable, Systematic evaluation suite for LLMs evaluation. As a synthetic benchmark, S3Eval enables the creation of any number of evaluation examples that are theoretically invisible to LLMs, mitigating the test set contamination issue. The synthetic nature of S3Eval provides users full control over the dataset, allowing them to systematically probe LLM capabilities by scaling text length and varying task difficulty across diverse scenarios. The strong correlation between S3Eval performance and scores of real-world benchmarks like Big-Bench Hard (BBH) demonstrates the soundness of using S3Eval for evaluation of LLMs. The in-depth analysis also uncover additional insights, including performance drop when the answer is sparsely distributed or located in the middle context, as well as some counter-intuitive trends of model performance.

arxiv情報

著者 Fangyu Lei,Qian Liu,Yiming Huang,Shizhu He,Jun Zhao,Kang Liu
発行日 2023-10-23 17:52:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク