MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models

要約

私たちは、大規模な言語モデルを使用したマルチモーダル時間イベント予測という新たな興味深い問題を研究します。
テキストやグラフのモダリティを使用する場合と比較して、時間的イベントの予測に画像を利用する研究は、特に大規模言語モデル (LLM) の時代には十分に検討されていません。
このギャップを埋めるために、私たちは次の 2 つの重要な質問に特に興味を持っています。1) なぜ画像が時間的イベントの予測に役立つのか、2) 画像を LLM ベースの予測フレームワークに統合する方法。
これらの研究上の疑問に答えるために、時間的イベント予測のシナリオにおいて画像が果たす 2 つの重要な機能、つまり強調表示と補完を特定することを提案します。
次に、MM-Forecast という新しいフレームワークを開発します。
画像関数識別モジュールを採用して、マルチモーダル大規模言語モデル (MLLM) を使用してこれらの関数を言語による説明として認識し、その後、これらの関数の説明を LLM ベースの予測モデルに組み込みます。
私たちのアプローチを評価するために、既存のイベント データセット MidEast-TE-mini を画像で拡張することにより、新しいマルチモーダル データセット MidEast-TE-mm を構築します。
実証研究により、MM-Forecast が画像関数を正確に識別できることが実証されており、さらに、これらの言語による関数記述を組み込むことで、予測パフォーマンスが大幅に向上します。
データセット、コード、プロンプトは https://github.com/LuminosityX/MM-Forecast で入手できます。

要約(オリジナル)

We study an emerging and intriguing problem of multimodal temporal event forecasting with large language models. Compared to using text or graph modalities, the investigation of utilizing images for temporal event forecasting has not been fully explored, especially in the era of large language models (LLMs). To bridge this gap, we are particularly interested in two key questions of: 1) why images will help in temporal event forecasting, and 2) how to integrate images into the LLM-based forecasting framework. To answer these research questions, we propose to identify two essential functions that images play in the scenario of temporal event forecasting, i.e., highlighting and complementary. Then, we develop a novel framework, named MM-Forecast. It employs an Image Function Identification module to recognize these functions as verbal descriptions using multimodal large language models (MLLMs), and subsequently incorporates these function descriptions into LLM-based forecasting models. To evaluate our approach, we construct a new multimodal dataset, MidEast-TE-mm, by extending an existing event dataset MidEast-TE-mini with images. Empirical studies demonstrate that our MM-Forecast can correctly identify the image functions, and further more, incorporating these verbal function descriptions significantly improves the forecasting performance. The dataset, code, and prompts are available at https://github.com/LuminosityX/MM-Forecast.

arxiv情報

著者 Haoxuan Li,Zhengmao Yang,Yunshan Ma,Yi Bin,Yang Yang,Tat-Seng Chua
発行日 2024-08-08 11:44:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.MM, H.3.3 パーマリンク