Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding

要約

デジタル環境は急速に進化しており、オンライン ニュースの量は増え続けており、複雑なイベントを迅速かつ正確に分析する必要性が強調されています。
長期間にわたって多数のニュース記事から構成される複雑なイベントを、Temporal Complex Event (TCE) と呼びます。
この論文では、ラージ言語モデル (LLM) を使用して、キー ポイントとタイムスタンプによって特徴付けられる TCE 内のイベント チェーンを体系的に抽出および分析する新しいアプローチを提案します。
私たちは、時間的ダイナミクスの処理と広範なテキストの理解における LLM の習熟度を評価するために、TCELongBench というベンチマークを確立しました。
このベンチマークには、読解、時間的順序付け、将来のイベントの予測という 3 つの異なるタスクが含まれます。
実験では、検索拡張生成 (RAG) 手法と長いコンテキスト ウィンドウを持つ LLM を活用して、TCE の長文ニュース記事を処理します。
私たちの調査結果は、適切なレトリーバーを備えたモデルが、長いコンテキスト ウィンドウを使用したモデルと同等のパフォーマンスを示すことを示しています。

要約(オリジナル)

The digital landscape is rapidly evolving with an ever-increasing volume of online news, emphasizing the need for swift and precise analysis of complex events. We refer to the complex events composed of many news articles over an extended period as Temporal Complex Event (TCE). This paper proposes a novel approach using Large Language Models (LLMs) to systematically extract and analyze the event chain within TCE, characterized by their key points and timestamps. We establish a benchmark, named TCELongBench, to evaluate the proficiency of LLMs in handling temporal dynamics and understanding extensive text. This benchmark encompasses three distinct tasks – reading comprehension, temporal sequencing, and future event forecasting. In the experiment, we leverage retrieval-augmented generation (RAG) method and LLMs with long context window to deal with lengthy news articles of TCE. Our findings indicate that models with suitable retrievers exhibit comparable performance with those utilizing long context window.

arxiv情報

著者 Zhihan Zhang,Yixin Cao,Chenchen Ye,Yunshan Ma,Lizi Liao,Tat-Seng Chua
発行日 2024-06-04 16:42:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク