Marathon: A Race Through the Realm of Long Context with Large Language Models

要約

現在、大規模な言語モデルの長いコンテキストの理解と推論能力を評価するために利用できるベンチマークが多数ありますが、これらのモデルのコンテキスト ウィンドウの拡張により、既存の長いコンテキストのベンチマークは、長いコンテキストの理解と推論能力を評価するのに十分ではなくなりました。
大規模な言語モデルの。
このペーパーでは、大規模な言語モデルの長文コンテキスト理解能力を迅速、正確、かつ迅速に評価するために、MMLU などのベンチマークに触発され、多肢選択式質問の形式でマラソンと名付けた新しい長文コンテキスト評価ベンチマークを開発しました。
客観的に。
私たちは、最新かつ最も人気のある大規模言語モデルのいくつかと、最近の効果的な 3 つの長いコンテキスト最適化手法をベンチマークで評価しました。
これは、これらの大規模な言語モデルの長いコンテキスト推論と理解機能を示し、これらの最適化手法の有効性を検証します。
マラソンは https://huggingface.co/datasets/Lemoncoke/Marathon でご覧いただけます。

要約(オリジナル)

Although there are currently many benchmarks available for evaluating the long context understanding and reasoning capability of large language models, with the expansion of the context window in these models, the existing long context benchmarks are no longer sufficient for evaluating the long context understanding and reasoning capability of large language models. In this paper, we have developed a fresh long context evaluation benchmark, which we name it Marathon in the form of multiple choice questions, inspired by benchmarks such as MMLU, for assessing the long context comprehension capability of large language models quickly, accurately, and objectively. We have evaluated several of the latest and most popular large language models, as well as three recent and effective long context optimization methods, on our benchmark. This showcases the long context reasoning and comprehension capabilities of these large language models and validates the effectiveness of these optimization methods. Marathon is available at https://huggingface.co/datasets/Lemoncoke/Marathon.

arxiv情報

著者 Lei Zhang,Yunshui Li,Ziqiang Liu,Jiaxi yang,Junhao Liu,Min Yang
発行日 2023-12-15 05:30:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク