TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models

要約

時間の理解は人間の認知の極めて重要な側面であり、世界の複雑さを理解するというより広い枠組みにおいて極めて重要です。
これまでの研究は通常、時間の特定の側面に焦点を当てており、包括的な時間推論のベンチマークが不足していました。
この問題に対処するために、私たちは、広範囲の時間推論現象をカバーする包括的な階層型時間推論ベンチマークである TimeBench を提案します。これは、大規模な言語モデルの時間推論機能を調査するための徹底的な評価を提供します。
私たちは、GPT-4、LLaMA2、Mistral などの人気のある LLM に対して、思考連鎖プロンプトを組み込んだ広範な実験を実施しています。
私たちの実験結果は、最先端の LLM と人間との間に大きなパフォーマンスのギャップがあることを示しており、時間的推論においてカバーすべきかなりの距離がまだあることを強調しています。
私たちは、TimeBench が総合的なベンチマークとして機能し、LLM の時間推論の研究を促進することを目指しています。
私たちのリソースは https://github.com/zchuz/TimeBench から入手できます。

要約(オリジナル)

Understanding time is a pivotal aspect of human cognition, crucial in the broader framework of grasping the intricacies of the world. Previous studies typically focus on specific aspects of time, lacking a comprehensive temporal reasoning benchmark. To address this issue, we propose TimeBench, a comprehensive hierarchical temporal reasoning benchmark that covers a broad spectrum of temporal reasoning phenomena, which provides a thorough evaluation for investigating the temporal reasoning capabilities of large language models. We conduct extensive experiments on popular LLMs, such as GPT-4, LLaMA2, and Mistral, incorporating chain-of-thought prompting. Our experimental results indicate a significant performance gap between the state-of-the-art LLMs and humans, highlighting that there is still a considerable distance to cover in temporal reasoning. We aspire for TimeBench to serve as a comprehensive benchmark, fostering research in temporal reasoning for LLMs. Our resource is available at https://github.com/zchuz/TimeBench

arxiv情報

著者 Zheng Chu,Jingchang Chen,Qianglong Chen,Weijiang Yu,Haotian Wang,Ming Liu,Bing Qin
発行日 2023-11-29 14:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク