TRAVELER: A Benchmark for Evaluating Temporal Reasoning across Vague, Implicit and Explicit References

要約

日常的なコミュニケーションにおいて過去や未来に言及することが多いため、時間的参照を理解し解決することは自然言語理解において不可欠である。既存のベンチマークでは、時間的参照を推論し解決するシステムの能力が評価されているが、特定の時間的参照に関する体系的な評価はまだ限られている。このギャップを埋めるために、我々はTRAVELERを紹介する。TRAVELERは、質問応答パラダイムに従った新しい合成ベンチマークデータセットであり、時間参照を含む質問とそれに対応する正解で構成されている。TRAVELERは、明示的、発話時間に対する暗黙的、曖昧な時間的参照を解決するモデルの能力を評価する。最新のLLMの時間的参照の種類による性能を調べるだけでなく、我々のベンチマークでは、イベントのセットの長さとの関連で性能を評価することもできる。このベンチマークの適用可能性を示すために、3,300の質問を含む質問応答タスクを使って、4つの最新のLLMを評価した。その結果、ベンチマークされたLLMは、少数のイベントと明示的な時間的参照を持つイベントセットに対する質問にはうまく答えることができるが、イベントセットの長さが大きくなるにつれて、また時間的参照が明示的でなくなるにつれて、性能は明らかに悪化することがわかった。特に、漠然とした質問カテゴリは、すべてのモデルで最も低いパフォーマンスを示している。 ベンチマークはhttps://gitlab.ub.uni-bielefeld.de/s.kenneweg/TRAVELER で公開されています。

要約(オリジナル)

Understanding and resolving temporal references is essential in Natural Language Understanding as we often refer to the past or future in daily communication. Although existing benchmarks address a system’s ability to reason about and resolve temporal references, systematic evaluation of specific temporal references remains limited. Towards closing this gap, we introduce TRAVELER, a novel synthetic benchmark dataset that follows a Question Answering paradigm and consists of questions involving temporal references with the corresponding correct answers. TRAVELER assesses models’ abilities to resolve explicit, implicit relative to speech time, and vague temporal references. Beyond investigating the performance of state-of-the-art LLMs depending on the type of temporal reference, our benchmark also allows evaluation of performance in relation to the length of the set of events. For the category of vague temporal references, ground-truth answers were established via human surveys on Prolific, following a procedure similar to the one from Kenneweg et al. To demonstrate the benchmark’s applicability, we evaluate four state-of-the-art LLMs using a question-answering task encompassing 3,300 questions. Our findings show that while the benchmarked LLMs can answer questions over event sets with a handful of events and explicit temporal references successfully, performance clearly deteriorates with larger event set length and when temporal references get less explicit. Notably, the vague question category exhibits the lowest performance across all models. The benchmark is publicly available at: https://gitlab.ub.uni-bielefeld.de/s.kenneweg/TRAVELER

arxiv情報

著者 Svenja Kenneweg,Jörg Deigmöller,Philipp Cimiano,Julian Eggert
発行日 2025-05-02 14:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク