DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks

要約

大規模言語モデル (LLM) は、さまざまな評価ベンチマークで顕著なパフォーマンスを達成しています。
ただし、相当量のトレーニング コーパスにおけるデータ汚染の可能性について懸念が生じています。
さらに、現在のベンチマークの静的な性質と固定された複雑さにより、LLM の進歩する機能を適切に評価できない可能性があります。
この論文では、LLM の動的評価のための一般的で柔軟なプロトコルである DyVal を紹介します。
私たちのフレームワークに基づいて、有向非巡回グラフの構造的利点を活用してグラフ情報に基づいた DyVal を構築し、制御可能な複雑さを持つ評価サンプルを動的に生成します。
DyVal は、数学、論理的推論、アルゴリズム問題などの推論タスクに関して、困難な評価セットを生成します。
Flan-T5-large から GPT-3.5-Turbo、GPT-4 までのさまざまな LLM を評価します。
実験では、DyVal によって生成されたさまざまな複雑さの評価サンプルでは LLM のパフォーマンスが低下することが示されており、動的評価の重要性が強調されています。
また、さまざまな促進方法の失敗例と結果も分析します。
さらに、DyVal で生成されたサンプルは評価セットであるだけでなく、既存のベンチマークで LLM のパフォーマンスを向上させるための微調整に役立つデータでもあります。
DyVal が今後の LLM の評価研究に光を当てることができることを期待しています。
コードは https://github.com/microsoft/promptbench から入手できます。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable performance in various evaluation benchmarks. However, concerns are raised about potential data contamination in their considerable volume of training corpus. Moreover, the static nature and fixed complexity of current benchmarks may inadequately gauge the advancing capabilities of LLMs. In this paper, we introduce DyVal, a general and flexible protocol for dynamic evaluation of LLMs. Based on our framework, we build graph-informed DyVal by leveraging the structural advantage of directed acyclic graphs to dynamically generate evaluation samples with controllable complexities. DyVal generates challenging evaluation sets on reasoning tasks including mathematics, logical reasoning, and algorithm problems. We evaluate various LLMs ranging from Flan-T5-large to GPT-3.5-Turbo and GPT-4. Experiments show that LLMs perform worse in DyVal-generated evaluation samples with different complexities, highlighting the significance of dynamic evaluation. We also analyze the failure cases and results of different prompting methods. Moreover, DyVal-generated samples are not only evaluation sets, but also helpful data for fine-tuning to improve the performance of LLMs on existing benchmarks. We hope that DyVal can shed light on future evaluation research of LLMs. Code is available at: https://github.com/microsoft/promptbench.

arxiv情報

著者 Kaijie Zhu,Jiaao Chen,Jindong Wang,Neil Zhenqiang Gong,Diyi Yang,Xing Xie
発行日 2024-03-14 09:52:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク