TempoGPT: Enhancing Temporal Reasoning via Quantizing Embedding

要約

マルチモーダル言語モデルは視覚と音声において進歩を遂げていますが、時系列領域での複雑な推論タスクを扱う際には依然として大きな課題に直面しています。
理由は 2 つあります。
まず、マルチモーダル時系列データのラベルは粗く、分析や推論のプロセスがありません。
これらのデータを使用してトレーニングしても、モデルの推論能力を向上させることはできません。
第 2 に、時系列処理における正確なトークン化が欠如しているため、時間情報とテキスト情報の表現パターンに一貫性がなく、マルチモーダル アラインメントの有効性が妨げられます。
これらの課題に対処するために、マルチモーダル時系列データ構築アプローチとマルチモーダル時系列言語モデル (TLM)、TempoGPT を提案します。
特に、ホワイトボックス システム内の変数システムの関係を分析することにより、複雑な推論タスク用のマルチモーダル データを構築します。
さらに、提案された TempoGPT は、時間エンベディングを量子化することにより、時間情報とテキスト情報の間で一貫した表現を実現します。時間エンベディングは、事前定義されたコードブックを使用して一連の離散トークンに量子化されます。
その後、共有埋め込み層が時間トークンとテキストトークンの両方を処理します。
広範な実験により、TempoGPT が時間情報を正確に認識し、論理的に結論を推論し、構築された複雑な時系列推論タスクにおいて最先端の技術を達成できることが実証されました。
さらに、マルチモーダルアライメントと TLM の推論能力を強化する際の時間埋め込みの量子化の有効性を定量的に実証します。
コードとデータは https://github.com/zhanghaochuan20/TempoGPT で入手できます。

要約(オリジナル)

Multi-modal language model has made advanced progress in vision and audio, but still faces significant challenges in dealing with complex reasoning tasks in the time series domain. The reasons are twofold. First, labels for multi-modal time series data are coarse and devoid of analysis or reasoning processes. Training with these data cannot improve the model’s reasoning capabilities. Second, due to the lack of precise tokenization in processing time series, the representation patterns for temporal and textual information are inconsistent, which hampers the effectiveness of multi-modal alignment. To address these challenges, we propose a multi-modal time series data construction approach and a multi-modal time series language model (TLM), TempoGPT. Specially, we construct multi-modal data for complex reasoning tasks by analyzing the variable-system relationships within a white-box system. Additionally, proposed TempoGPT achieves consistent representation between temporal and textual information by quantizing temporal embeddings, where temporal embeddings are quantized into a series of discrete tokens using a predefined codebook; subsequently, a shared embedding layer processes both temporal and textual tokens. Extensive experiments demonstrate that TempoGPT accurately perceives temporal information, logically infers conclusions, and achieves state-of-the-art in the constructed complex time series reasoning tasks. Moreover, we quantitatively demonstrate the effectiveness of quantizing temporal embeddings in enhancing multi-modal alignment and the reasoning capabilities of TLMs. Code and data are available at https://github.com/zhanghaochuan20/TempoGPT.

arxiv情報

著者 Haochuan Zhang,Chunhua Yang,Jie Han,Liyang Qin,Xiaoli Wang
発行日 2025-01-13 13:47:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク