Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning

要約

現実世界の知識は常に更新されています。
ただし、大規模言語モデル (LLM) を頻繁に更新するにはコストがかかります。
したがって、LLM にとって時間的知識の概念を理解することは非常に重要です。
ただし、時間的質問応答 (TQA) に関する以前の研究では、時間的推論のマルチアンサーおよびマルチホップ タイプは強調されていませんでした。
この論文では、多重応答とマルチホップの時間的推論に焦点を当てた複雑な時間的質問応答データセット Complex-TR を提案します。
さらに、LLM の複雑な時間的推論能力と堅牢性を向上させるための新しいデータ拡張戦略も提案します。
複数の時間 QA データセットに対して実験を実施しました。
実験結果は、私たちの方法が一時的な QA ベンチマークで LLM のパフォーマンスを大幅に改善できることを示しています。
コードとデータは https://github.com/nusnlp/complex-tr でリリースされています。

要約(オリジナル)

Knowledge in the real world is being updated constantly. However, it is costly to frequently update large language models (LLMs). Therefore, it is crucial for LLMs to understand the concept of temporal knowledge. However, prior works on temporal question answering (TQA) did not emphasize multi-answer and multi-hop types of temporal reasoning. In this paper, we propose a complex temporal question-answering dataset Complex-TR that focuses on multi-answer and multi-hop temporal reasoning. Besides, we also propose a novel data augmentation strategy to improve the complex temporal reasoning capability and robustness of LLMs. We conducted experiments on multiple temporal QA datasets. Experimental results show that our method is able to improve LLMs’ performance on temporal QA benchmarks by significant margins. Our code and data are released at: https://github.com/nusnlp/complex-tr.

arxiv情報

著者 Qingyu Tan,Hwee Tou Ng,Lidong Bing
発行日 2024-07-12 16:37:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク