Remember This Event That Year? Assessing Temporal Information and Reasoning in Large Language Models

要約

大規模言語モデル(LLM)はますますユビキタスになってきているが、時間情報を保持し推論する能力はまだ限定的であり、事象の連続性を理解することが重要な実世界シナリオへの応用を妨げている。本研究では、紀元前10,000年から紀元2100年までの新しい数値-時間データセットである♪textbf{TempUN}に対して、12個の最新モデル(2Bから70B+パラメータの範囲)を用いて実験を行い、重要な時間的保持と理解の限界を明らかにする。我々は、時間的知識習得を強化するための3つの学習パラダイムを評価する6つの指標を提案する。その結果、オープンソースのモデルは知識ギャップをより頻繁に示すことが明らかになり、限られた知識と不正確な回答との間のトレードオフが示唆された。さらに、様々な微調整アプローチにより、性能が大幅に改善され、誤った出力が減少し、世代内の「利用できない情報」の識別に影響を与えた。関連するデータセットとコードは(https://github.com/lingoiitgn/TempUN)で入手可能である。

要約(オリジナル)

Large Language Models (LLMs) are increasingly ubiquitous, yet their ability to retain and reason about temporal information remains limited, hindering their application in real-world scenarios where understanding the sequential nature of events is crucial. Our study experiments with 12 state-of-the-art models (ranging from 2B to 70B+ parameters) on a novel numerical-temporal dataset, \textbf{TempUN}, spanning from 10,000 BCE to 2100 CE, to uncover significant temporal retention and comprehension limitations. We propose six metrics to assess three learning paradigms to enhance temporal knowledge acquisition. Our findings reveal that open-source models exhibit knowledge gaps more frequently, suggesting a trade-off between limited knowledge and incorrect responses. Additionally, various fine-tuning approaches significantly improved performance, reducing incorrect outputs and impacting the identification of ‘information not available’ in the generations. The associated dataset and code are available at (https://github.com/lingoiitgn/TempUN).

arxiv情報

著者 Himanshu Beniwal,Dishant Patel,Kowsik Nandagopan D,Hritik Ladia,Ankit Yadav,Mayank Singh
発行日 2024-07-05 11:26:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク