要約
大規模言語モデル (LLM) の既存の評価ベンチマークの多くは、新しいモデルとトレーニング データの出現により、すぐに時代遅れになります。
これらのベンチマークは、時間的次元のない静的な質問で構成されているため、LLM のパフォーマンスが時間の経過とともにどのように変化するかを評価することにも不十分です。
これらの制限に対処するために、LLM の時間的一般化と予測能力を評価するための継続的な評価方法として将来のイベント予測を使用することを提案します。
当社のベンチマークである Daily Oracle は、毎日のニュースから質問と回答 (QA) のペアを自動的に生成し、LLM に「将来の」イベントの結果を予測するよう要求します。
私たちの調査結果では、トレーニング前のデータが古くなると、時間の経過とともに LLM のパフォーマンスが低下することが明らかになりました。
検索拡張生成 (RAG) には予測精度を向上させる可能性がありますが、パフォーマンスの低下パターンは続いており、継続的なモデル更新の必要性が浮き彫りになっています。
要約(オリジナル)
Many existing evaluation benchmarks for Large Language Models (LLMs) quickly become outdated due to the emergence of new models and training data. These benchmarks also fall short in assessing how LLM performance changes over time, as they consist of static questions without a temporal dimension. To address these limitations, we propose using future event prediction as a continuous evaluation method to assess LLMs’ temporal generalization and forecasting abilities. Our benchmark, Daily Oracle, automatically generates question-answer (QA) pairs from daily news, challenging LLMs to predict ‘future’ event outcomes. Our findings reveal that as pre-training data becomes outdated, LLM performance degrades over time. While Retrieval Augmented Generation (RAG) has the potential to enhance prediction accuracy, the performance degradation pattern persists, highlighting the need for continuous model updates.
arxiv情報
著者 | Hui Dai,Ryan Teehan,Mengye Ren |
発行日 | 2024-11-13 04:20:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google