Evaluating LLMs at Evaluating Temporal Generalization

要約

大規模言語モデル (LLM) の急速な進歩は、言語理解と情報処理の向上に合わせて進化する評価方法論の緊急の必要性を浮き彫りにしています。
しかし、静的なことが多い従来のベンチマークでは、絶えず変化する情報環境を捉えることができず、刻々と変化する現実世界のシナリオにおける LLM の認識された有効性と実際の有効性との間に差異が生じます。
さらに、これらのベンチマークは、より広い時間範囲にわたるモデルの機能や、経時的な適応性を適切に測定するものではありません。
我々は、時間的一般化とバイアスの観点から現在のLLMを調査し、言語の可能性と予後予測の両方にさまざまな時間的バイアスが現れることを明らかにしました。
これは、LLM 実践者が時間的バイアスを軽減することに細心の注意を払うようにという警告として機能します。
また、最新の実世界の予知予測から動的にベンチマークを生成するための評価フレームワーク Freshbench を提案します。
私たちのコードは https://github.com/FreedomIntelligence/FreshBench で入手できます。
データセットは間もなくリリースされる予定です。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) highlights the urgent need for evolving evaluation methodologies that keep pace with improvements in language comprehension and information processing. However, traditional benchmarks, which are often static, fail to capture the continually changing information landscape, leading to a disparity between the perceived and actual effectiveness of LLMs in ever-changing real-world scenarios. Furthermore, these benchmarks do not adequately measure the models’ capabilities over a broader temporal range or their adaptability over time. We examine current LLMs in terms of temporal generalization and bias, revealing that various temporal biases emerge in both language likelihood and prognostic prediction. This serves as a caution for LLM practitioners to pay closer attention to mitigating temporal biases. Also, we propose an evaluation framework Freshbench for dynamically generating benchmarks from the most recent real-world prognostication prediction. Our code is available at https://github.com/FreedomIntelligence/FreshBench. The dataset will be released soon.

arxiv情報

著者 Chenghao Zhu,Nuo Chen,Yufei Gao,Benyou Wang
発行日 2024-05-14 09:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク