Counting-Stars: A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models

要約

最近の研究努力は、堅牢なロングコンテキスト機能を備えた大規模言語モデル (LLM) の開発に焦点を当てていますが、ロングコンテキストのベンチマークが不足しているため、ロングコンテキスト LLM のパフォーマンスがどの程度優れているかについては比較的ほとんどわかっていません。
このギャップに対処するために、私たちは、Counting-Stars というロングコンテキスト LLM を評価するためのマルチエビデンス、ポジション認識、スケーラブルなベンチマークを提案します。このベンチマークは、マルチエビデンスの取得とマルチエビデンスの 2 つのタスクを使用してロングコンテキスト LLM を評価します。
推論。
Counting-Stars テストに基づいて、ロングコンテキスト LLM (つまり、GPT-4 Turbo、Gemini 1.5 Pro、Claude3 Opus、GLM-4、および Moonshot-v1) を評価するための実験を実施します。
実験結果は、Gemini 1.5 Pro が総合的に最高の結果を達成し、GPT-4 Turbo のパフォーマンスがさまざまなタスクにわたって最も安定していることを示しています。
さらに、長いコンテキストのシナリオを処理できるように拡張されたこれらの LLM の分析では、入力コンテキストの長さとタスクの複雑さが増すにつれて改善の可能性があることが示されています。

要約(オリジナル)

While recent research endeavors have focused on developing Large Language Models (LLMs) with robust long-context capabilities, due to the lack of long-context benchmarks, relatively little is known about how well the performance of long-context LLMs. To address this gap, we propose a multi-evidence, position-aware, and scalable benchmark for evaluating long-context LLMs, named Counting-Stars, which evaluates long-context LLMs by using two tasks: multi-evidence acquisition and multi-evidence reasoning. Based on the Counting-Stars test, we conduct experiments to evaluate long-context LLMs (i.e., GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, and Moonshot-v1). Experimental results demonstrate that Gemini 1.5 Pro achieves the best overall results, while the performance of GPT-4 Turbo is the most stable across various tasks. Furthermore, our analysis of these LLMs, which are extended to handle long-context scenarios, indicates that there is potential for improvement as the length of the input context and the intricacy of the tasks are increasing.

arxiv情報

著者 Mingyang Song,Mao Zheng,Xuan Luo
発行日 2024-05-17 16:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク