Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

要約

大規模言語モデル (LLM) は、優れた推論能力を示していますが、特に複雑な時相論理を含む時相推論タスクでは依然としてエラーが発生しやすいです。
既存の研究では、さまざまなデータセットとベンチマークを使用して、時間推論における LLM のパフォーマンスを調査してきました。
ただし、これらの研究は、LLM が事前トレーニング中に遭遇した可能性のある現実世界のデータに依存したり、誤って事実の不一致を引き起こす可能性のある匿名化技術を使用したりすることがよくあります。
この研究では、さまざまなシナリオで LLM の時間的推論能力を評価するために特別に設計された新しい合成データセットを導入することで、これらの制限に対処します。
これらのデータセットにわたる質問の種類の多様性により、問題の構造、サイズ、質問の種類、ファクトの順序、およびその他の要因が LLM のパフォーマンスに及ぼす影響を体系的に調査することができます。
私たちの調査結果は、時間的推論タスクにおける現在の LLM の長所と短所についての貴重な洞察を提供します。
この分野でのさらなる研究を促進するために、実験で使用したデータセットと評価フレームワークをオープンソース化しています: https://huggingface.co/datasets/baharef/ToT。

要約(オリジナル)

Large language models (LLMs) have showcased remarkable reasoning capabilities, yet they remain susceptible to errors, particularly in temporal reasoning tasks involving complex temporal logic. Existing research has explored LLM performance on temporal reasoning using diverse datasets and benchmarks. However, these studies often rely on real-world data that LLMs may have encountered during pre-training or employ anonymization techniques that can inadvertently introduce factual inconsistencies. In this work, we address these limitations by introducing novel synthetic datasets specifically designed to assess LLM temporal reasoning abilities in various scenarios. The diversity of question types across these datasets enables systematic investigation into the impact of the problem structure, size, question type, fact order, and other factors on LLM performance. Our findings provide valuable insights into the strengths and weaknesses of current LLMs in temporal reasoning tasks. To foster further research in this area, we are open-sourcing the datasets and evaluation framework used in our experiments: https://huggingface.co/datasets/baharef/ToT.

arxiv情報

著者 Bahare Fatemi,Mehran Kazemi,Anton Tsitsulin,Karishma Malkan,Jinyeong Yim,John Palowitch,Sungyong Seo,Jonathan Halcrow,Bryan Perozzi
発行日 2024-06-13 14:31:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク