要約
大規模言語モデル (LLM) は、さまざまな評価ベンチマークで顕著なパフォーマンスを達成しています。
ただし、そのパフォーマンスについては、かなりの量のトレーニング コーパスにデータが混入する可能性があるという懸念が生じています。
さらに、現在のベンチマークの静的な性質と固定された複雑さにより、LLM の進歩する機能を適切に評価できない可能性があります。
この論文では、LLM の動的評価のための、新規で一般的かつ柔軟な評価プロトコルである DyVal を紹介します。
私たちが提案した動的評価フレームワークに基づいて、有向非巡回グラフの構造上の利点を活用して、制御可能な複雑さを持つ評価サンプルを動的に生成することで、グラフ情報に基づいた DyVal を構築します。
DyVal は、数学、論理的推論、アルゴリズム問題などの推論タスクに関して、困難な評価セットを生成します。
Flan-T5-large から ChatGPT および GPT4 に至るまで、さまざまな LLM を評価します。
実験では、DyVal で生成されたさまざまな複雑さの評価サンプルでは LLM のパフォーマンスが低下することが実証され、動的評価の重要性が強調されています。
また、さまざまな促進方法の失敗例と結果も分析します。
さらに、DyVal で生成されたサンプルは評価セットであるだけでなく、既存のベンチマークで LLM のパフォーマンスを向上させるための微調整に役立つデータでもあります。
DyVal が今後の LLM の評価研究に光を当てることができれば幸いです。
要約(オリジナル)
Large language models (LLMs) have achieved remarkable performance in various evaluation benchmarks. However, concerns about their performance are raised on potential data contamination in their considerable volume of training corpus. Moreover, the static nature and fixed complexity of current benchmarks may inadequately gauge the advancing capabilities of LLMs. In this paper, we introduce DyVal, a novel, general, and flexible evaluation protocol for dynamic evaluation of LLMs. Based on our proposed dynamic evaluation framework, we build graph-informed DyVal by leveraging the structural advantage of directed acyclic graphs to dynamically generate evaluation samples with controllable complexities. DyVal generates challenging evaluation sets on reasoning tasks including mathematics, logical reasoning, and algorithm problems. We evaluate various LLMs ranging from Flan-T5-large to ChatGPT and GPT4. Experiments demonstrate that LLMs perform worse in DyVal-generated evaluation samples with different complexities, emphasizing the significance of dynamic evaluation. We also analyze the failure cases and results of different prompting methods. Moreover, DyVal-generated samples are not only evaluation sets, but also helpful data for fine-tuning to improve the performance of LLMs on existing benchmarks. We hope that DyVal can shed light on the future evaluation research of LLMs.
arxiv情報
著者 | Kaijie Zhu,Jiaao Chen,Jindong Wang,Neil Zhenqiang Gong,Diyi Yang,Xing Xie |
発行日 | 2023-09-29 12:04:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google