L-Eval: Instituting Standardized Evaluation for Long Context Language Models

要約

最近、1 ターンの長い入力やより広範な履歴を持つ会話を効果的に処理することを目的として、大規模言語モデル (LLM) のコンテキスト長を拡張することへの関心が高まっています。
GPT-4 や Claude などの独自のモデルは、拡張されたコンテキストでも推論能力をほぼ維持できますが、オープンソース モデルはまだ開発の初期段階で進行中です。
このギャップを埋めるために、データセット構築と評価指標という 2 つの重要な側面に対処するロング コンテキスト言語モデル (LCLM) のより標準化された評価を確立するために、L-Eval を提案します。
一方では、20 のサブタスク、508 の長いドキュメント、およびさまざまな質問スタイル、ドメイン、入力長 (3k$\sim$200k トークン) を含む 2,000 を超える人間がラベル付けしたクエリと応答のペアを含む新しい評価スイートを構築します。

一方、LCLM の評価指標の有効性を調査します。
結果は、一般的な N グラム マッチング メトリクスは一般に人間の判断と十分に相関できないことを示しているため、長さ命令強化 (LIE) 評価と LLM ジャッジの採用を強く推奨します。
私たちは、L-Eval ベンチマークを使用して、4 つの人気のある商用 LLM と 12 の対応するオープンソース LLM について包括的な調査を実施しました。
私たちの経験的発見は、LCLM の研究に有用な洞察を提供し、これらのモデルのより原理的な評価を開発するための基礎を築きます。

要約(オリジナル)

Recently, there has been growing interest in extending the context length of large language models (LLMs), aiming to effectively process long inputs of one turn or conversations with more extensive histories. While proprietary models such as GPT-4 and Claude can largely preserve the reasoning ability in an extended context, open-source models are still progressing through the early stages of development. To bridge this gap, we propose L-Eval to institute a more standardized evaluation for long context language models (LCLMs) addressing two key aspects: dataset construction and evaluation metrics. On the one hand, we build a new evaluation suite containing 20 sub-tasks, 508 long documents, and over 2,000 human-labeled query-response pairs encompassing diverse question styles, domains, and input length (3k$\sim$200k tokens). On the other hand, we investigate the effectiveness in evalution metrics for LCLMs. Results show that popular n-gram matching metrics generally can not correlate well with human judgment, and thus we strongly advocate for length-instruction-enhanced (LIE) evaluation and employing LLM judges. We conducted a comprehensive study of 4 popular commercial LLMs and 12 open-source counterparts using the L-Eval benchmark. Our empirical findings offer useful insights into the study of LCLMs and lay the groundwork for the development of more principled evaluation of these models.

arxiv情報

著者 Chenxin An,Shansan Gong,Ming Zhong,Xingjian Zhao,Mukai Li,Jun Zhang,Lingpeng Kong,Xipeng Qiu
発行日 2023-10-04 10:04:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク