Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models

要約

時間についての推論は基本的に重要です。
多くの事実は時間に依存します。
たとえば、スポーツ選手は時々チームを変更し、さまざまな政府高官が定期的に選出されます。
以前の時間依存の質問応答 (QA) データセットは、対象期間または質問の種類のいずれかにおいて偏る傾向がありました。
この論文では、大規模な言語モデルの時間的推論能力を評価するための包括的な調査データセット \tempreason を紹介します。
私たちのデータセットには、3 つの時間推論レベルの質問が含まれています。
さらに、時間スパン抽出と時間依存強化学習に基づいて、大規模言語モデルの時間推論能力を向上させるための新しい学習フレームワークも提案します。
私たちはクローズドブック QA、オープンブック QA、および推論 QA 設定で実験を実施し、アプローチの有効性を実証しました。
コードとデータは https://github.com/DAMO-NLP-SG/TempReason で公開されています。

要約(オリジナル)

Reasoning about time is of fundamental importance. Many facts are time-dependent. For example, athletes change teams from time to time, and different government officials are elected periodically. Previous time-dependent question answering (QA) datasets tend to be biased in either their coverage of time spans or question types. In this paper, we introduce a comprehensive probing dataset \tempreason to evaluate the temporal reasoning capability of large language models. Our dataset includes questions of three temporal reasoning levels. In addition, we also propose a novel learning framework to improve the temporal reasoning capability of large language models, based on temporal span extraction and time-sensitive reinforcement learning. We conducted experiments in closed book QA, open book QA, and reasoning QA settings and demonstrated the effectiveness of our approach. Our code and data are released on https://github.com/DAMO-NLP-SG/TempReason.

arxiv情報

著者 Qingyu Tan,Hwee Tou Ng,Lidong Bing
発行日 2023-06-27 05:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク