Is Your LLM Outdated? Evaluating LLMs at Temporal Generalization

要約

大規模言語モデル (LLM) の急速な進歩は、言語理解と情報処理の向上に合わせて進化する評価方法論の緊急の必要性を浮き彫りにしています。
ただし、静的なことが多い従来のベンチマークでは、絶えず変化する情報環境を捉えることができず、刻々と変化する現実世界のシナリオにおける LLM の認識された有効性と実際の有効性の間に差異が生じます。
私たちの研究では、過去、現在、未来のコンテキストに関連するテキストを理解、予測、生成する能力を含む時間的一般化を調査し、LLM における重大な時間的バイアスを明らかにしました。
最近の実世界の予測から動的にベンチマークを生成するための評価フレームワークを提案します。
実験では、LLM が時間的一般化に苦労し、時間の経過とともにパフォーマンスが低下することが示されています。
これらの発見は、適応性を高め、バイアスを減らすために、トレーニングと更新プロセスを改善する必要性を強調しています。
私たちのコード、データセット、ベンチマークは https://github.com/FreedomIntelligence/FreshBench で入手できます。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) highlights the urgent need for evolving evaluation methodologies that keep pace with improvements in language comprehension and information processing. However, traditional benchmarks, which are often static, fail to capture the continually changing information landscape, leading to a disparity between the perceived and actual effectiveness of LLMs in ever-changing real-world scenarios. Our study examines temporal generalization, which includes the ability to understand, predict, and generate text relevant to past, present, and future contexts, revealing significant temporal biases in LLMs. We propose an evaluation framework, for dynamically generating benchmarks from recent real-world predictions. Experiments demonstrate that LLMs struggle with temporal generalization, showing performance decline over time. These findings highlight the necessity for improved training and updating processes to enhance adaptability and reduce biases. Our code, dataset and benchmark are available at https://github.com/FreedomIntelligence/FreshBench.

arxiv情報

著者 Chenghao Zhu,Nuo Chen,Yufei Gao,Yunyi Zhang,Prayag Tiwari,Benyou Wang
発行日 2024-07-10 17:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク