TRAM: Benchmarking Temporal Reasoning for Large Language Models

要約

時間に関する推論は、自然言語で記述された出来事のニュアンスを理解するために不可欠である。このトピックに関するこれまでの研究は、範囲が限定されており、異なる研究間で一貫した評価を可能にする標準化されたベンチマークがないことが特徴である。本論文では、大規模言語モデル(LLM)の時間推論能力を包括的に評価するために設計された、順序、演算、頻度、継続時間など、事象の様々な時間的側面を含む10のデータセットから構成される時間推論ベンチマークであるTRAMを紹介する。GPT-4やLlama2などの一般的なLLMを用いて、ゼロショットと数ショットの両方の学習シナリオで広範な評価を行う。さらに、ベースライン評価を確立するためにBERTベースのモデルを採用した。その結果、これらのモデルは、時間推論タスクにおいて、依然として人間の性能を引き離していることがわかった。TRAMがLLMの時間推論能力を向上させる上で更なる進歩に拍車をかけることが我々の願いである。

要約(オリジナル)

Reasoning about time is essential for understanding the nuances of events described in natural language. Previous research on this topic has been limited in scope, characterized by a lack of standardized benchmarks that would allow for consistent evaluations across different studies. In this paper, we introduce TRAM, a temporal reasoning benchmark composed of ten datasets, encompassing various temporal aspects of events such as order, arithmetic, frequency, and duration, designed to facilitate a comprehensive evaluation of the temporal reasoning capabilities of large language models (LLMs). We conduct an extensive evaluation using popular LLMs, such as GPT-4 and Llama2, in both zero-shot and few-shot learning scenarios. Additionally, we employ BERT-based models to establish the baseline evaluations. Our findings indicate that these models still trail human performance in temporal reasoning tasks. It is our aspiration that TRAM will spur further progress in enhancing the temporal reasoning abilities of LLMs.

arxiv情報

著者 Yuqing Wang,Yun Zhao
発行日 2023-10-03 13:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク