要約
人間は継続的に新しい発見をし、これらのブレークスルーにつながる一連の出来事を理解することは、科学と社会を進めるために不可欠です。
時間の経過とともに推論するこの能力により、将来のステップを特定し、私たちの生活に対する財政的および政治的決定の影響を理解することができます。
ただし、大規模な言語モデル(LLM)は通常、静的データセットでトレーニングされており、効果的な時間的推論を実行する能力を制限します。
LLMSの時間的推論能力を評価するために、複数の期間にわたって1,238のエンティティにまたがる14,000を超えるテーブルから派生した3,971の質問で構成されるTransienttables Datasetを提示します。
LLMSを活用してテンプレートと質問の両方を改良するテンプレートベースの質問生成パイプラインを紹介します。
さらに、最先端のLLMSを使用してベースライン結果を確立してベンチマークを作成します。
また、タスク分解を中心とした新しいモデリング戦略を紹介し、LLMパフォーマンスを向上させます。
要約(オリジナル)
Humans continuously make new discoveries, and understanding temporal sequence of events leading to these breakthroughs is essential for advancing science and society. This ability to reason over time allows us to identify future steps and understand the effects of financial and political decisions on our lives. However, large language models (LLMs) are typically trained on static datasets, limiting their ability to perform effective temporal reasoning. To assess the temporal reasoning capabilities of LLMs, we present the TRANSIENTTABLES dataset, which comprises 3,971 questions derived from over 14,000 tables, spanning 1,238 entities across multiple time periods. We introduce a template-based question-generation pipeline that harnesses LLMs to refine both templates and questions. Additionally, we establish baseline results using state-of-the-art LLMs to create a benchmark. We also introduce novel modeling strategies centered around task decomposition, enhancing LLM performance.
arxiv情報
著者 | Abhilash Shankarampeta,Harsh Mahajan,Tushar Kataria,Dan Roth,Vivek Gupta |
発行日 | 2025-04-02 16:34:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google