A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting

要約

最近、大規模言語モデル (LLM) は、知識に関する質問への回答、数学的推論、常識的推論など、さまざまなデータ マイニング タスクにおいて大きな可能性を示しています。
しかし、時間的イベント予測に関する LLM の推論能力は十分に研究されていません。
時間的イベント予測における彼らの能力を体系的に調査するために、時間的イベント予測のためのLLMベースの手法の包括的な評価を実施します。
グラフ データとテキスト データの両方を含む高品質のデータセットが不足しているため、最初に MidEast-TE-mini という名前のベンチマーク データセットを構築します。
このデータセットに基づいて、さまざまな入力形式と検索拡張生成 (RAG) モジュールを特徴とする一連のベースライン手法を設計します。
広範な実験から、生のテキストを LLM の入力に直接統合しても、ゼロショット外挿のパフォーマンスは向上しないことがわかりました。
対照的に、特定の複雑なイベントに生のテキストを組み込み、LLM を微調整すると、パフォーマンスが大幅に向上します。
さらに、検索モジュールで強化された LLM は、歴史的出来事に隠された時間的関係パターンを効果的に捕捉できます。
一方、LLM、特に RAG ベースの手法では、人気バイアスやロングテール問題などの問題が依然として残っています。
これらの発見は、LLMベースのイベント予測手法についての理解を深めただけでなく、いくつかの有望な研究の方向性を強調しました。この包括的な評価は、特定された研究機会とともに、LLMを介した時間イベント予測に関する将来の研究に大きく貢献すると考えています。

要約(オリジナル)

Recently, Large Language Models (LLMs) have demonstrated great potential in various data mining tasks, such as knowledge question answering, mathematical reasoning, and commonsense reasoning. However, the reasoning capability of LLMs on temporal event forecasting has been under-explored. To systematically investigate their abilities in temporal event forecasting, we conduct a comprehensive evaluation of LLM-based methods for temporal event forecasting. Due to the lack of a high-quality dataset that involves both graph and textual data, we first construct a benchmark dataset, named MidEast-TE-mini. Based on this dataset, we design a series of baseline methods, characterized by various input formats and retrieval augmented generation(RAG) modules. From extensive experiments, we find that directly integrating raw texts into the input of LLMs does not enhance zero-shot extrapolation performance. In contrast, incorporating raw texts in specific complex events and fine-tuning LLMs significantly improves performance. Moreover, enhanced with retrieval modules, LLM can effectively capture temporal relational patterns hidden in historical events. Meanwhile, issues such as popularity bias and the long-tail problem still persist in LLMs, particularly in the RAG-based method. These findings not only deepen our understanding of LLM-based event forecasting methods but also highlight several promising research directions.We consider that this comprehensive evaluation, along with the identified research opportunities, will significantly contribute to future research on temporal event forecasting through LLMs.

arxiv情報

著者 He Chang,Chenchen Ye,Zhulin Tao,Jie Wu,Zhengmao Yang,Yunshan Ma,Xianglin Huang,Tat-Seng Chua
発行日 2024-07-16 11:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク