TRAM: Benchmarking Temporal Reasoning for Large Language Models

要約

自然言語で記述された出来事のニュアンスを理解するには、時間についての推論が不可欠です。
このテーマに関するこれまでの研究は範囲が限られており、異なる研究間で一貫した評価を可能にする標準化されたベンチマークが不足していることが特徴でした。
この論文では、順序、演算、頻度、期間などのイベントのさまざまな時間的側面を網羅する 10 個のデータセットで構成される時間推論ベンチマークである TRAM を紹介します。これは、大規模言語モデル (LLM) の TeR 機能の包括的な評価を容易にするように設計されています。
)。
GPT-4 や Llama2 などの人気のある LLM をゼロショットおよび少数ショットのシナリオで評価し、BERT ベースおよびドメイン固有のモデルでベースラインを確立します。
私たちの調査結果は、最高のパフォーマンスを発揮するモデルが人間のパフォーマンスより大幅に遅れていることを示しています。
TRAM が LLM の TeR 機能の強化においてさらなる進歩を促進することが私たちの願望です。

要約(オリジナル)

Reasoning about time is essential for understanding the nuances of events described in natural language. Previous research on this topic has been limited in scope, characterized by a lack of standardized benchmarks that would allow for consistent evaluations across different studies. In this paper, we introduce TRAM, a temporal reasoning benchmark composed of ten datasets, encompassing various temporal aspects of events such as order, arithmetic, frequency, and duration, designed to facilitate a comprehensive evaluation of the TeR capabilities of large language models (LLMs). We evaluate popular LLMs like GPT-4 and Llama2 in zero-shot and few-shot scenarios, and establish baselines with BERT-based and domain-specific models. Our findings indicate that the best-performing model lags significantly behind human performance. It is our aspiration that TRAM will spur further progress in enhancing the TeR capabilities of LLMs.

arxiv情報

著者 Yuqing Wang,Yun Zhao
発行日 2024-05-31 15:36:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク