TiEBe: A Benchmark for Assessing the Current Knowledge of Large Language Models

要約

知識の状況が急速に進化し、大規模な言語モデルの採用が増加する中、これらのモデルを最新の出来事に合わせて継続的に更新し続ける必要性が生じています。
既存のベンチマークは一般的な事実の想起を評価しますが、継続的な学習を通じて進化する知識を統合するモデルの能力と、パフォーマンスにおける重大な地域差という 2 つの重要な側面を見落とすことがよくあります。
これらのギャップに対処するために、世界的および地域的に重要なイベントに焦点を当てた 11,000 を超える質問と回答のペアを含むデータセットである Timely Events Benchmark (TiEBe) を導入します。
TiEBe は、Wikipedia の構造化された遡及データを活用し、進化する世界情勢に関する LLM の知識とさまざまな地域にわたる出来事の理解を評価するための継続的な更新を可能にします。
私たちのベンチマークは、LLM が事実の再現においてかなりの地理的格差を示していることを示しており、よりバランスのとれたグローバルな知識表現の必要性を強調しています。
さらに、TiEBe は継続的な学習戦略を評価するツールとして機能し、過去の知識を忘れることなく新しい情報を取得するモデルの能力についての洞察を提供します。

要約(オリジナル)

In a rapidly evolving knowledge landscape and the increasing adoption of large language models, a need has emerged to keep these models continuously updated with current events. While existing benchmarks evaluate general factual recall, they often overlook two critical aspects: the ability of models to integrate evolving knowledge through continual learning and the significant regional disparities in their performance. To address these gaps, we introduce the Timely Events Benchmark (TiEBe), a dataset containing over 11,000 question-answer pairs focused on globally and regionally significant events. TiEBe leverages structured retrospective data from Wikipedia, enabling continuous updates to assess LLMs’ knowledge of evolving global affairs and their understanding of events across different regions. Our benchmark demonstrates that LLMs exhibit substantial geographic disparities in factual recall, emphasizing the need for more balanced global knowledge representation. Furthermore, TiEBe serves as a tool for evaluating continual learning strategies, providing insights into models’ ability to acquire new information without forgetting past knowledge.

arxiv情報

著者 Thales Sales Almeida,Giovana Kerche Bonás,João Guilherme Alves Santos,Hugo Abonizio,Rodrigo Nogueira
発行日 2025-01-13 16:58:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク