L-Eval: Instituting Standardized Evaluation for Long Context Language Models

要約

最近、ワンターンの長い入力 (論文の要約など) やより広範な履歴を持つ会話を効果的に処理するために、命令追従モデルのコンテキスト長を拡張することに関心が高まっています。
GPT-4 や Claude などの独自のモデルは、数万のコンテキスト トークンの処理において大幅な進歩を示していますが、オープンソース モデルはまだ実験の初期段階にあります。
また、これらの長いコンテキスト モデルの開発が、検索ベースの手法やチャンク化されたコンテキストで単純にトレーニングされたモデルと比較して、実際の下流タスクで大幅な利益をもたらすことができるかどうかも不明のままです。
この課題に対処するために、私たちは長いコンテキスト言語モデルの標準化された評価を制定することを提案します。
具体的には、法律、金融、学校の講義、長い会話、ニュース、長編小説、会議などの分野を網羅する、作成者によって手動で注釈が付けられチェックされた 411 の長い文書と 2,000 を超えるクエリと応答のペアを含む L-Eval を開発します。
また、L-Eval は多様な評価方法と指導スタイルを採用しており、ロング コンテキスト言語モデル (LCLM) のより信頼性の高い評価を可能にします。
私たちの調査結果は、オープンソース モデルは通常、商用モデルに比べて遅れをとっているものの、依然として優れたパフォーマンスを示していることを示しています。
LLaMA2 は、コンテキスト長がわずか 4k のオープンエンド タスクで最良の結果 (ターボ 16k に対して 45\% の勝利) を達成し、ChatGLM2 は、8k 入力トークンを使用するクローズドエンド タスクで最良の結果を達成します。
新しい評価スイート、コード、すべてのオープンソース LCLM、GPT4-32k、Cluade-100k からの予測を含むすべての生成結果を {\url{https://github.com/OpenLMLab/LEval}} でリリースします。

要約(オリジナル)

Recently, there has been growing interest in extending the context length of instruction-following models in order to effectively process single-turn long input (e.g. summarizing a paper) and conversations with more extensive histories. While proprietary models such as GPT-4 and Claude have demonstrated considerable advancements in handling tens of thousands of tokens of context, open-sourced models are still in the early stages of experimentation. It also remains unclear whether developing these long context models can offer substantial gains on practical downstream tasks over retrieval-based methods or models simply trained on chunked contexts. To address this challenge, we propose to institute standardized evaluation for long context language models. Concretely, we develop L-Eval which contains 411 long documents and over 2,000 query-response pairs manually annotated and checked by the authors encompassing areas such as law, finance, school lectures, lengthy conversations, news, long-form novels, and meetings. L-Eval also adopts diverse evaluation methods and instruction styles, enabling a more reliable assessment of Long Context Language Models (LCLMs). Our findings indicate that while open-source models typically lag behind their commercial counterparts, they still exhibit impressive performance. LLaMA2 achieves the best results (win 45\% vs turbo-16k) on open-ended tasks with only 4k context length and ChatGLM2 achieves the best results on closed-ended tasks with 8k input tokens. We release our new evaluation suite, code, and all generation results including predictions from all open-sourced LCLMs, GPT4-32k, Cluade-100k at {\url{https://github.com/OpenLMLab/LEval}}.

arxiv情報

著者 Chenxin An,Shansan Gong,Ming Zhong,Mukai Li,Jun Zhang,Lingpeng Kong,Xipeng Qiu
発行日 2023-07-20 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク