要約
知識の状況が進化し、大規模な言語モデル(LLM)がますます広くなるにつれて、現在のイベントでこれらのモデルを更新する必要が高まっています。
既存のベンチマークは一般的な事実のリコールを評価していますが、LLMSがどのように時間の経過とともに知識を保持しているかを調査する研究はほとんどありません。
これらのギャップに対処するために、タイムリーなイベントベンチマーク(Tiebe)を紹介します。これは、10年以上のイベント、23の地域、13の言語にまたがる、顕著なグローバルおよび地域のイベントを中心とした23,000を超える質問回答ペアのデータセットです。
Tiebeは、Wikipediaから構造化された遡及データを活用して、時間をかけて顕著なイベントを特定します。
これらのイベントは、ウィキペディア自体を超えた実際の証拠に基づいて、グローバルおよび地域の開発に対するLLMSの理解を評価するためにベンチマークを構築するために使用されます。
私たちの結果は、実際には重要な地理的格差を明らかにし、LLMトレーニングにおけるよりバランスのとれたグローバル代表の必要性を強調しています。
また、TiebeでのモデルのパフォーマンスとHDIなどのさまざまな国の社会経済的指標との間に、0.7以上のピアソン相関が観察されています。
さらに、各イベントが発生した地域の母国語で質問を提起し、低資源言語の実質的なパフォーマンスギャップを発見することにより、言語の言語の影響を調べます。
要約(オリジナル)
As the knowledge landscape evolves and large language models (LLMs) become increasingly widespread, there is a growing need to keep these models updated with current events. While existing benchmarks assess general factual recall, few studies explore how LLMs retain knowledge over time or across different regions. To address these gaps, we present the Timely Events Benchmark (TiEBe), a dataset of over 23,000 question-answer pairs centered on notable global and regional events, spanning more than 10 years of events, 23 regions, and 13 languages. TiEBe leverages structured retrospective data from Wikipedia to identify notable events through time. These events are then used to construct a benchmark to evaluate LLMs’ understanding of global and regional developments, grounded in factual evidence beyond Wikipedia itself. Our results reveal significant geographic disparities in factual recall, emphasizing the need for more balanced global representation in LLM training. We also observe a Pearson correlation of more than 0.7 between models’ performance in TiEBe and various countries’ socioeconomic indicators, such as HDI. In addition, we examine the impact of language on factual recall by posing questions in the native language of the region where each event occurred, uncovering substantial performance gaps for low-resource languages.
arxiv情報
著者 | Thales Sales Almeida,Giovana Kerche Bonás,João Guilherme Alves Santos,Hugo Abonizio,Rodrigo Nogueira |
発行日 | 2025-05-20 17:09:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google