LIFBench: Evaluating the Instruction Following Performance and Stability of Large Language Models in Long-Context Scenarios

要約

大規模言語モデル (LLM) が自然言語処理 (NLP) で進歩し続けるにつれて、長いコンテキストの入力内の命令に安定して従う能力が、現実世界のアプリケーションにとって重要になっています。
既存のベンチマークはさまざまな LLM 機能を評価しますが、長いコンテキストのシナリオでの命令の追従や、さまざまな入力での安定性に焦点を当てることはほとんどありません。
これに応えて、LLM の命令追従機能と長いコンテキストにわたる安定性を評価するために設計されたスケーラブルなデータセットである、ロングコンテキスト命令追従ベンチマーク (LIFBench) を紹介します。
LIFBench は、3 つの長いコンテキストのシナリオと 11 の多様なタスクで構成され、長さ、式、変数の 3 つの次元にわたる自動拡張メソッドを通じて生成された 2,766 の命令によってサポートされています。
評価については、LLM 支援評価や人間の判断に依存せずに、複雑な LLM 応答の正確な自動スコアリングを提供するルーブリックベースの評価フレームワークである LIFEval を提案します。
このアプローチにより、さまざまな観点からモデルのパフォーマンスと安定性を包括的に分析できます。
私たちは、6 つの長さの間隔にわたって 20 の注目すべき LLM について広範な実験を実施し、その命令追従能力と安定性を分析しました。
私たちの取り組みは、複雑で長いコンテキスト設定で LLM のパフォーマンスを評価するための堅牢なツールとして LIFBench と LIFEval に貢献し、将来の LLM 開発に役立つ洞察を提供します。

要約(オリジナル)

As Large Language Models (LLMs) continue to advance in natural language processing (NLP), their ability to stably follow instructions in long-context inputs has become crucial for real-world applications. While existing benchmarks assess various LLM capabilities, they rarely focus on instruction-following in long-context scenarios or stability on different inputs. In response, we introduce the Long-context Instruction-Following Benchmark (LIFBench), a scalable dataset designed to evaluate LLMs’ instruction-following capabilities and stability across long contexts. LIFBench comprises three long-context scenarios and eleven diverse tasks, supported by 2,766 instructions generated through an automated expansion method across three dimensions: length, expression, and variables. For evaluation, we propose LIFEval, a rubric-based assessment framework that provides precise, automated scoring of complex LLM responses without relying on LLM-assisted evaluations or human judgments. This approach facilitates a comprehensive analysis of model performance and stability across various perspectives. We conduct extensive experiments on 20 notable LLMs across six length intervals, analyzing their instruction-following capabilities and stability. Our work contributes LIFBench and LIFEval as robust tools for assessing LLM performance in complex, long-context settings, providing insights that can inform future LLM development.

arxiv情報

著者 Xiaodong Wu,Minhao Wang,Yichen Liu,Xiaoming Shi,He Yan,Xiangju Lu,Junmin Zhu,Wei Zhang
発行日 2024-11-11 14:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク