TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models


これに対処するために、広範囲の時間推論現象をカバーする包括的な階層型時間推論ベンチマークである TimeBench を提案します。
TimeBench は、大規模な言語モデルの時間推論機能を調査するための徹底的な評価を提供します。
私たちは、GPT-4、LLaMA2、およびその他の一般的な LLM について、さまざまな設定で広範な実験を行っています。
私たちの実験結果は、最先端の LLM と人間との間に大きなパフォーマンスのギャップがあることを示しており、時間的推論においてカバーすべきかなりの距離がまだあることを強調しています。
さらに、LLM は、さまざまな推論カテゴリ間で能力の不一致を示します。
私たちは、TimeBench が包括的なベンチマークとして機能し、時間推論の研究を促進することを目指しています。
リソースは https://github.com/zchuz/TimeBench から入手できます。


Grasping the concept of time is a fundamental facet of human cognition, indispensable for truly comprehending the intricacies of the world. Previous studies typically focus on specific aspects of time, lacking a comprehensive temporal reasoning benchmark. To address this, we propose TimeBench, a comprehensive hierarchical temporal reasoning benchmark that covers a broad spectrum of temporal reasoning phenomena. TimeBench provides a thorough evaluation for investigating the temporal reasoning capabilities of large language models. We conduct extensive experiments on GPT-4, LLaMA2, and other popular LLMs under various settings. Our experimental results indicate a significant performance gap between the state-of-the-art LLMs and humans, highlighting that there is still a considerable distance to cover in temporal reasoning. Besides, LLMs exhibit capability discrepancies across different reasoning categories. Furthermore, we thoroughly analyze the impact of multiple aspects on temporal reasoning and emphasize the associated challenges. We aspire for TimeBench to serve as a comprehensive benchmark, fostering research in temporal reasoning. Resources are available at: https://github.com/zchuz/TimeBench


著者 Zheng Chu,Jingchang Chen,Qianglong Chen,Weijiang Yu,Haotian Wang,Ming Liu,Bing Qin
発行日 2024-06-28 10:40:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク