L-Eval: Instituting Standardized Evaluation for Long Context Language Models

要約

最近、ワンターンの長い入力 (論文の要約など) やより広範な履歴を持つ会話を効果的に処理するために、命令追従モデルのコンテキスト長を拡張することに関心が高まっています。
GPT-4 や Claude などの独自モデルは非常に長い入力の処理において大きな進歩を示していますが、オープンソース モデルはまだ実験の初期段階にあります。
また、コンテキストを拡張することで検索などの従来の方法に比べて大幅なメリットが得られるかどうか、また、実際の下流タスクにおいて通常の方法よりもどの程度改善されるかは不明のままです。
この課題に対処するために、長いコンテキスト言語モデルの標準化された評価を導入することを提案します。
具体的には、法律、金融、学校の講義、長い会話、ニュース、長編小説、会議などの分野を網羅する、411 の長い文書と人間がラベル付けした 2,000 を超えるクエリと応答のペアを含む L-Eval を開発します。
また、L-Eval は多様な評価方法と指導スタイルを採用しており、ロング コンテキスト言語モデル (LCLM) のより信頼性の高い評価を可能にします。
私たちの調査結果は、オープンソース モデルは一般的に商用モデルより遅れているものの、それでも通常のバージョンと比較して優れたパフォーマンスを示していることを示しています。
LLaMA2-13B は、オープンエンド タスク (\textbf{42}\% 対 Turbo-16k-0613 で勝利) と、コンテキスト長がわずか 4K のクローズエンド タスクの両方で最高の結果を達成します。
新しい評価スイート、コード、すべてのオープンソース LCLM、GPT4-32k、Cluade-100k からの予測を含むすべての生成結果を {\url{https://github.com/OpenLMLab/LEval}} でリリースします。

要約(オリジナル)

Recently, there has been growing interest in extending the context length of instruction-following models in order to effectively process single-turn long input (e.g. summarizing a paper) and conversations with more extensive histories. While proprietary models such as GPT-4 and Claude have shown significant strides in handling extremely lengthy input, open-sourced models are still in the early stages of experimentation. It also remains unclear whether extending the context can offer substantial gains over traditional methods such as retrieval, and to what extent it improves upon their regular counterparts in practical downstream tasks. To address this challenge, we propose instituting standardized evaluation for long context language models. Concretely, we develop L-Eval which contains 411 long documents and over 2,000 human-labeled query-response pairs encompassing areas such as law, finance, school lectures, lengthy conversations, news, long-form novels, and meetings. L-Eval also adopts diverse evaluation methods and instruction styles, enabling a more reliable assessment of Long Context Language Models (LCLMs). Our findings indicate that while open-source models typically lag behind commercial models, they still exhibit impressive performance compared with their regular versions. LLaMA2-13B achieves the best results on both open-ended tasks (win \textbf{42}\% vs turbo-16k-0613) and closed-ended tasks with only 4k context length. We release our new evaluation suite, code, and all generation results including predictions from all open-sourced LCLMs, GPT4-32k, Cluade-100k at {\url{https://github.com/OpenLMLab/LEval}}.

arxiv情報

著者 Chenxin An,Shansan Gong,Ming Zhong,Mukai Li,Jun Zhang,Lingpeng Kong,Xipeng Qiu
発行日 2023-07-31 17:19:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク