ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events


大規模言語モデル (LLM) は、さまざまな NLP タスクで目覚ましい成功を収めていますが、推論と算術では依然として大きな課題に直面しています。
しかし、時間的関係の基本的な枠組みであるアレンの間隔関係 (例: 前、後、間) の包括的なテストは、依然として十分に研究されていません。
このギャップを埋めるために、LLM の時間的理解を評価するための新しいベンチマークである ChronoSense を紹介します。
これには、ウィキデータからの抽象的なイベントと現実世界のデータの両方を使用して、2 つの時間的イベントと時間的算術の間のアレン関係を特定することに焦点を当てた 16 のタスクが含まれています。
このベンチマークを使用して、最近の 7 つの LLM のパフォーマンスを評価しました。その結果、モデルは、たとえ対称的なものであっても、アレン関係をまったく異なる方法で処理することが示されました。
全体として、モデルのパフォーマンスの低さは、LLM における時間的理解を改善する必要性を浮き彫りにしており、ChronoSense はこの分野の将来の研究に堅牢なフレームワークを提供します。
データセットとソース コードは で入手できます。


Large Language Models (LLMs) have achieved remarkable success in various NLP tasks, yet they still face significant challenges in reasoning and arithmetic. Temporal reasoning, a critical component of natural language understanding, has raised increasing research attention. However, comprehensive testing of Allen’s interval relations (e.g., before, after, during) — a fundamental framework for temporal relationships — remains underexplored. To fill this gap, we present ChronoSense, a new benchmark for evaluating LLMs’ temporal understanding. It includes 16 tasks, focusing on identifying the Allen relation between two temporal events and temporal arithmetic, using both abstract events and real-world data from Wikidata. We assess the performance of seven recent LLMs using this benchmark and the results indicate that models handle Allen relations, even symmetrical ones, quite differently. Moreover, the findings suggest that the models may rely on memorization to answer time-related questions. Overall, the models’ low performance highlights the need for improved temporal understanding in LLMs and ChronoSense offers a robust framework for future research in this area. Our dataset and the source code are available at


著者 Duygu Sezen Islakoglu,Jan-Christoph Kalo
発行日 2025-01-06 14:27:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.LG パーマリンク