A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting


最近、大規模言語モデル (LLM) は、知識に関する質問への回答、数学的推論、常識的推論など、さまざまなデータ マイニング タスクにおいて大きな可能性を示しています。
しかし、時間的イベント予測に関する LLM の推論能力は十分に研究されていません。
グラフ データとテキスト データの両方を含む高品質のデータセットが不足しているため、最初に MidEast-TE-mini という名前のベンチマーク データセットを構築します。
このデータセットに基づいて、さまざまな入力形式と検索拡張生成 (RAG) モジュールを特徴とする一連のベースライン手法を設計します。
広範な実験から、生のテキストを LLM の入力に直接統合しても、ゼロショット外挿のパフォーマンスは向上しないことがわかりました。
対照的に、特定の複雑なイベントに生のテキストを組み込み、LLM を微調整すると、パフォーマンスが大幅に向上します。
さらに、検索モジュールで強化された LLM は、歴史的出来事に隠された時間的関係パターンを効果的に捕捉できます。
一方、LLM、特に RAG ベースの手法では、人気バイアスやロングテール問題などの問題が依然として残っています。


Recently, Large Language Models (LLMs) have demonstrated great potential in various data mining tasks, such as knowledge question answering, mathematical reasoning, and commonsense reasoning. However, the reasoning capability of LLMs on temporal event forecasting has been under-explored. To systematically investigate their abilities in temporal event forecasting, we conduct a comprehensive evaluation of LLM-based methods for temporal event forecasting. Due to the lack of a high-quality dataset that involves both graph and textual data, we first construct a benchmark dataset, named MidEast-TE-mini. Based on this dataset, we design a series of baseline methods, characterized by various input formats and retrieval augmented generation(RAG) modules. From extensive experiments, we find that directly integrating raw texts into the input of LLMs does not enhance zero-shot extrapolation performance. In contrast, incorporating raw texts in specific complex events and fine-tuning LLMs significantly improves performance. Moreover, enhanced with retrieval modules, LLM can effectively capture temporal relational patterns hidden in historical events. Meanwhile, issues such as popularity bias and the long-tail problem still persist in LLMs, particularly in the RAG-based method. These findings not only deepen our understanding of LLM-based event forecasting methods but also highlight several promising research directions.We consider that this comprehensive evaluation, along with the identified research opportunities, will significantly contribute to future research on temporal event forecasting through LLMs.


著者 He Chang,Chenchen Ye,Zhulin Tao,Jie Wu,Zhengmao Yang,Yunshan Ma,Xianglin Huang,Tat-Seng Chua
発行日 2024-07-16 11:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク