LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws

要約

スケーリング法は、モデルサイズ、トークン、および計算の最適なバランスの推定値を提供することにより、大規模な言語モデル(LLMS)の開発を導きます。
より最近では、LLMのパフォーマンスを理解し、改善するための強力なツールとして、事前トレーニングデータセットとダウンストリームタスク全体で損失を関連付ける損失から失われたスケーリング法則が浮上しています。
この作業では、どの要因が損失から失われたスケーリングに強く影響するかを調査します。
私たちの実験では、事前削除データとトークン剤がスケーリングの傾向を決定することが明らかになりました。
対照的に、モデルサイズ、最適化ハイパーパラメーター、さらには、Llamaなどの変圧器ベースのモデルやMambaなどの状態空間モデルなどの重要なアーキテクチャの違いは、影響が限られています。
その結果、開業医は最適なダウンストリームパフォーマンスのために適切な事前トレーニングデータセットを慎重にキュレートする必要がありますが、アーキテクチャやその他の設定はトレーニング効率のために自由に最適化できます。

要約(オリジナル)

Scaling laws guide the development of large language models (LLMs) by offering estimates for the optimal balance of model size, tokens, and compute. More recently, loss-to-loss scaling laws that relate losses across pretraining datasets and downstream tasks have emerged as a powerful tool for understanding and improving LLM performance. In this work, we investigate which factors most strongly influence loss-to-loss scaling. Our experiments reveal that the pretraining data and tokenizer determine the scaling trend. In contrast, model size, optimization hyperparameters, and even significant architectural differences, such as between transformer-based models like Llama and state-space models like Mamba, have limited impact. Consequently, practitioners should carefully curate suitable pretraining datasets for optimal downstream performance, while architectures and other settings can be freely optimized for training efficiency.

arxiv情報

著者 Prasanna Mayilvahanan,Thaddäus Wiedemer,Sayak Mallick,Matthias Bethge,Wieland Brendel
発行日 2025-06-06 15:05:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws はコメントを受け付けていません

Joint-GCG: Unified Gradient-Based Poisoning Attacks on Retrieval-Augmented Generation Systems

要約

回答を生成する前に外部コーパスから関連するドキュメントを取得することにより、検索された生成(RAG)システムは大規模な言語モデル(LLMS)を強化します。
このアプローチは、広大で最新の外部知識を活用することにより、LLM機能を大幅に拡張します。
ただし、外部の知識への依存により、RAGシステムは、中毒の文書注入を介して生成された出力を操作するコーパス中毒攻撃に対して脆弱になります。
既存の中毒攻撃戦略は、通常、検索段階と生成段階をばらばらとして扱い、その有効性を制限します。
3つのイノベーションを通じて、レトリバーモデルとジェネレーターモデルの両方にわたって勾配ベースの攻撃を統合する最初のフレームワークであるジョイントGCGを提案します。(1)埋め込みスペースを整列するためのクロスポジブラリー投影、(2)トークンレベルのグラジエントシグナルを同期するための勾配トークン化アラインメント、および(3)攻撃的なバランスをとるための適応重み融合。
評価は、ジョイントGCGが最大25%で達成し、複数のレトリバーとジェネレーターにわたる以前の方法よりも攻撃成功率が平均5%高いことを示しています。
ホワイトボックスの仮定の下で最適化されていますが、生成された毒物は、目に見えないモデルへの前例のない転送可能性を示しています。
検索段階と生成段階にわたる勾配ベースの攻撃のジョイントGCGの革新的な統一は、RAGシステム内の脆弱性の理解を根本的に再形成します。
私たちのコードは、https://github.com/nicerwang/joint-gcgで入手できます。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) systems enhance Large Language Models (LLMs) by retrieving relevant documents from external corpora before generating responses. This approach significantly expands LLM capabilities by leveraging vast, up-to-date external knowledge. However, this reliance on external knowledge makes RAG systems vulnerable to corpus poisoning attacks that manipulate generated outputs via poisoned document injection. Existing poisoning attack strategies typically treat the retrieval and generation stages as disjointed, limiting their effectiveness. We propose Joint-GCG, the first framework to unify gradient-based attacks across both retriever and generator models through three innovations: (1) Cross-Vocabulary Projection for aligning embedding spaces, (2) Gradient Tokenization Alignment for synchronizing token-level gradient signals, and (3) Adaptive Weighted Fusion for dynamically balancing attacking objectives. Evaluations demonstrate that Joint-GCG achieves at most 25% and an average of 5% higher attack success rate than previous methods across multiple retrievers and generators. While optimized under a white-box assumption, the generated poisons show unprecedented transferability to unseen models. Joint-GCG’s innovative unification of gradient-based attacks across retrieval and generation stages fundamentally reshapes our understanding of vulnerabilities within RAG systems. Our code is available at https://github.com/NicerWang/Joint-GCG.

arxiv情報

著者 Haowei Wang,Rupeng Zhang,Junjie Wang,Mingyang Li,Yuekai Huang,Dandan Wang,Qing Wang
発行日 2025-06-06 15:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Joint-GCG: Unified Gradient-Based Poisoning Attacks on Retrieval-Augmented Generation Systems はコメントを受け付けていません

Deconfounding Multi-Cause Latent Confounders: A Factor-Model Approach to Climate Model Bias Correction

要約

グローバルな気候モデル(GCM)は、地球システムをシミュレートすることにより、将来の気候変動を予測するために重要です。
ただし、GCM出力は、モデルの不確実性、パラメーター化の単純化、複雑な気候現象の不十分な表現により、系統的バイアスを示します。
歴史的観察データと統計的手法に依存する従来のバイアス補正方法は、しばしば観察されていない交絡因子を無視し、偏った結果をもたらします。
このペーパーでは、GCMと観測データの両方を利用して、多症例の潜在的な交絡因子をキャプチャする因子モデルを学習するための新しいバイアス補正アプローチを提案します。
因果関係に基づく時系列のデコンファウンドの最近の進歩に触発されたこの方法は、最初に歴史的データから潜在的な交絡因子を学習するための因子モデルを構築し、その後、高度な時系列予測モデルを使用してバイアス補正プロセスを強化するためにそれらを適用します。
実験結果は、降水量の精度の大幅な改善を示しています。
観察されていない交絡因子に対処することにより、私たちのアプローチは、気候モデルバイアス補正のための堅牢で理論的に根拠のあるソリューションを提供します。

要約(オリジナル)

Global Climate Models (GCMs) are crucial for predicting future climate changes by simulating the Earth systems. However, the GCM Outputs exhibit systematic biases due to model uncertainties, parameterization simplifications, and inadequate representation of complex climate phenomena. Traditional bias correction methods, which rely on historical observation data and statistical techniques, often neglect unobserved confounders, leading to biased results. This paper proposes a novel bias correction approach to utilize both GCM and observational data to learn a factor model that captures multi-cause latent confounders. Inspired by recent advances in causality based time series deconfounding, our method first constructs a factor model to learn latent confounders from historical data and then applies them to enhance the bias correction process using advanced time series forecasting models. The experimental results demonstrate significant improvements in the accuracy of precipitation outputs. By addressing unobserved confounders, our approach offers a robust and theoretically grounded solution for climate model bias correction.

arxiv情報

著者 Wentao Gao,Jiuyong Li,Debo Cheng,Lin Liu,Jixue Liu,Thuc Duy Le,Xiaojing Du,Xiongren Chen,Yanchang Zhao,Yun Chen
発行日 2025-06-06 15:23:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.ao-ph, stat.ML | Deconfounding Multi-Cause Latent Confounders: A Factor-Model Approach to Climate Model Bias Correction はコメントを受け付けていません

Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning

要約

検証可能な報酬(RLVR)による強化学習は、大規模な言語モデルの推論能力を強化するための強力なパラダイムとして浮上しています。
ただし、計算およびメモリの要件における基本的な非対称性によって制約されています。ロールアウト生成は恥ずかしいほど並行してメモリライトであり、ポリシーの更新はコミュニケーションが多いメモリ集約型です。
これに対処するために、ポッド(ダウンサンプリングによるポリシーの最適化)を紹介します。
ポッドは並行して多数のロールアウトを生成し、その後、有益なサブセットのみでトレーニングを行い、更新コストを削減しながら学習信号を保存します。
報酬の多様性を最大化し、$ o(n \ log n)$ソリューションを認めることを示す原則的な基準である最大値のダウンサンプリングを備えたポッドをインスタンス化します。
経験的には、グループ相対ポリシー最適化(GRPO)との結合ポッドは、さまざまな推論ベンチマークやハードウェア環境で標準GRPOよりも優れたパフォーマンスを達成します。

要約(オリジナル)

Reinforcement learning with verifiable rewards (RLVR) has emerged as a powerful paradigm for enhancing reasoning capabilities in large language models. However, it is constrained by a fundamental asymmetry in computation and memory requirements: rollout generation is embarrassingly parallel and memory-light, whereas policy updates are communication-heavy and memory-intensive. To address this, we introduce PODS (Policy Optimization with Down-Sampling). PODS produces numerous rollouts in parallel, then trains on only an informative subset, preserving learning signals while slashing update cost. We instantiate PODS with max-variance down-sampling, a principled criterion that maximises reward diversity and show it admits an $O(n\log n)$ solution. Empirically, coupling PODS with Group Relative Policy Optimization (GRPO) achieves superior performance over standard GRPO across different reasoning benchmarks and hardware environments.

arxiv情報

著者 Yixuan Even Xu,Yash Savani,Fei Fang,Zico Kolter
発行日 2025-06-06 15:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning はコメントを受け付けていません

Recommender systems, stigmergy, and the tyranny of popularity

要約

Google ScholarやWeb of Scienceなどの科学的推奨システムは、発見に不可欠なツールです。
繰り返しのエンゲージメントを通じて有用なパスを表面化する集合的な知能メカニズムであるStigmergyを通じて機能するパワーを検索するアルゴリズムを検索します。
一般的に効果的ですが、この「リッチゲットリッチャー」の動的は、可視性を支配する少数の有名な論文を生成します。
このエッセイは、これらのアルゴリズムが人気に過度に依存していることを、知的均一性を促進し、構造的不平等を悪化させ、科学的進歩に重要な革新的で多様な視点を抑制していると主張しています。
ユーザー固有のキャリブレーションを組み込むための検索プラットフォームのオーバーホールを提案し、研究者が人気、最新性、関連性などの要因の重みを手動で調整できるようにします。
また、ユーザーの自律性を高める方法でWord EmbeddingsとLLMをどのように実装できるかについて、プラットフォーム開発者にアドバイスします。
私たちの提案は、科学的価値を持つ推奨システムを調整することに特に適していますが、これらのアイデアは一般的な情報アクセスシステムに広く適用されます。
ユーザーの自律性を高めるプラットフォームの設計は、より堅牢で動的な情報への重要なステップです

要約(オリジナル)

Scientific recommender systems, such as Google Scholar and Web of Science, are essential tools for discovery. Search algorithms that power work through stigmergy, a collective intelligence mechanism that surfaces useful paths through repeated engagement. While generally effective, this “rich-get-richer” dynamic results in a small number of high-profile papers that dominate visibility. This essay argues argue that these algorithm over-reliance on popularity fosters intellectual homogeneity and exacerbates structural inequities, stifling innovative and diverse perspectives critical for scientific progress. We propose an overhaul of search platforms to incorporate user-specific calibration, allowing researchers to manually adjust the weights of factors like popularity, recency, and relevance. We also advise platform developers on how word embeddings and LLMs could be implemented in ways that increase user autonomy. While our suggestions are particularly pertinent to aligning recommender systems with scientific values, these ideas are broadly applicable to information access systems in general. Designing platforms that increase user autonomy is an important step toward more robust and dynamic information

arxiv情報

著者 Zackary Okun Dunivin,Paul E. Smaldino
発行日 2025-06-06 15:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, cs.IR | Recommender systems, stigmergy, and the tyranny of popularity はコメントを受け付けていません

(AI peers) are people learning from the same standpoint: Perception of AI characters in a Collaborative Science Investigation

要約

21世紀の要求の複雑さは、複雑な能力を促進するための教育的アプローチを促進しましたが、クラス内学習活動と個別の学習または評価の実践の間には持続的なギャップが残ります。
これに対処するために、研究では、学習と評価におけるAIに生成されたキャラクターの使用を調査しました。
1つの試みは、シナリオベースの評価(SBA)です。これは、評価プロセス全体で測定するだけでなく、能力の開発を促進する手法です。
SBAは、シミュレートされたエージェントを導入して、本物の社会的相互作用コンテキストを提供し、実生活の相互作用の予測不可能性を軽減しながら、コンピテンシーベースの構成要素の評価を可能にします。
テキストからビデオへのテクノロジーなどのマルチモーダルAIの最近の進歩により、これらのエージェントをAIに生成されたキャラクターに強化することができます。
この混合メソッドの研究では、学習者が、共同科学調査のコンテキストを反映したSBAでメンターとチームメイトの役割を担うAIキャラクターをどのように認識しているかを調査しています。
具体的には、信頼、社会的存在、および有効性に関する56人の高校生のリッカートスケール応答を調べました。
これらの要因との関係と、PLS-SEMを介してAIキャラクターを採用する意図への影響を分析しました。
私たちの調査結果は、学習者の信頼がAIキャラクターで社会的存在感を形作り、認識された有効性を高めることを示しています。
定性分析はさらに、物質的な信頼性や学習目標との整合など、信頼を促進する要因、および共同コンテキストの作成における社会的存在の極めて重要な役割を強調しました。
この論文は、AIED 2025の完全な論文として受け入れられました。

要約(オリジナル)

While the complexity of 21st-century demands has promoted pedagogical approaches to foster complex competencies, a persistent gap remains between in-class learning activities and individualized learning or assessment practices. To address this, studies have explored the use of AI-generated characters in learning and assessment. One attempt is scenario-based assessment (SBA), a technique that not only measures but also fosters the development of competencies throughout the assessment process. SBA introduces simulated agents to provide an authentic social-interactional context, allowing for the assessment of competency-based constructs while mitigating the unpredictability of real-life interactions. Recent advancements in multimodal AI, such as text-to-video technology, allow these agents to be enhanced into AI-generated characters. This mixed-method study investigates how learners perceive AI characters taking the role of mentor and teammates in an SBA mirroring the context of a collaborative science investigation. Specifically, we examined the Likert scale responses of 56 high schoolers regarding trust, social presence, and effectiveness. We analyzed the relationships between these factors and their impact on the intention to adopt AI characters through PLS-SEM. Our findings indicated that learners’ trust shaped their sense of social presence with the AI characters, enhancing perceived effectiveness. Qualitative analysis further highlighted factors that foster trust, such as material credibility and alignment with learning goals, as well as the pivotal role of social presence in creating a collaborative context. This paper was accepted as an full paper for AIED 2025.

arxiv情報

著者 Eunhye Grace Ko,Soo Hyoung Joo
発行日 2025-06-06 15:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | (AI peers) are people learning from the same standpoint: Perception of AI characters in a Collaborative Science Investigation はコメントを受け付けていません

The Lock-in Hypothesis: Stagnation by Algorithm

要約

大規模な言語モデル(LLMS)のトレーニングと展開は、人間のユーザーとのフィードバックループを作成します。モデルは、データから人間の信念を学び、生成されたコンテンツでこれらの信念を強化し、強化された信念を再吸収し、ユーザーに何度も戻します。
この動的はエコーチャンバーに似ています。
このフィードバックループは、ユーザーの既存の価値と信念を定着させ、多様性の喪失と潜在的に誤った信念のロックインにつながると仮定します。
この仮説を正式化し、エージェントベースのLLMシミュレーションと実際のGPT使用データで経験的にテストします。
分析により、新しいGPTイテレーションのリリース後、突然が多様性の持続的な低下が明らかになります。
https://thelockinhypothesis.comで利用可能なコードとデータ

要約(オリジナル)

The training and deployment of large language models (LLMs) create a feedback loop with human users: models learn human beliefs from data, reinforce these beliefs with generated content, reabsorb the reinforced beliefs, and feed them back to users again and again. This dynamic resembles an echo chamber. We hypothesize that this feedback loop entrenches the existing values and beliefs of users, leading to a loss of diversity and potentially the lock-in of false beliefs. We formalize this hypothesis and test it empirically with agent-based LLM simulations and real-world GPT usage data. Analysis reveals sudden but sustained drops in diversity after the release of new GPT iterations, consistent with the hypothesized human-AI feedback loop. Code and data available at https://thelockinhypothesis.com

arxiv情報

著者 Tianyi Alex Qiu,Zhonghao He,Tejasveer Chugh,Max Kleiman-Weiner
発行日 2025-06-06 15:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG | The Lock-in Hypothesis: Stagnation by Algorithm はコメントを受け付けていません

semantic-features: A User-Friendly Tool for Studying Contextual Word Embeddings in Interpretable Semantic Spaces

要約

Chronis et al。
(2023)LMSの文脈化された単語の埋め込みを、それらを解釈可能な空間に投影することにより、研究するため。
このツールは、発話の意味解釈に対するデイティブ構造の選択(前置詞または二重オブジェクト)のコンテキスト効果を測定する実験に適用します(Bresnan、2007)。
具体的には、「ロンドン」の「ロンドン」を「ロンドンに送った」かどうかをテストします。
「私はロンドンに手紙を送った」よりも、アニメーションの指示対象(例えば、人の名前として)として解釈される可能性が高いです。
この目的のために、450ペアのデータセットを考案します。各デイティブ構造に1つは、受信者がPerson-Hood vs. Place-Hoodに関してあいまいです。
セマンティックフィーチャーを適用することにより、3つのマスクされた言語モデルのコンテキスト化された単語の埋め込みが、予想される感度を示していることを示します。
これにより、ツールの有用性について楽観的になります。

要約(オリジナル)

We introduce semantic-features, an extensible, easy-to-use library based on Chronis et al. (2023) for studying contextualized word embeddings of LMs by projecting them into interpretable spaces. We apply this tool in an experiment where we measure the contextual effect of the choice of dative construction (prepositional or double object) on the semantic interpretation of utterances (Bresnan, 2007). Specifically, we test whether ‘London’ in ‘I sent London the letter.’ is more likely to be interpreted as an animate referent (e.g., as the name of a person) than in ‘I sent the letter to London.’ To this end, we devise a dataset of 450 sentence pairs, one in each dative construction, with recipients being ambiguous with respect to person-hood vs. place-hood. By applying semantic-features, we show that the contextualized word embeddings of three masked language models show the expected sensitivities. This leaves us optimistic about the usefulness of our tool.

arxiv情報

著者 Jwalanthi Ranganathan,Rohan Jha,Kanishka Misra,Kyle Mahowald
発行日 2025-06-06 15:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | semantic-features: A User-Friendly Tool for Studying Contextual Word Embeddings in Interpretable Semantic Spaces はコメントを受け付けていません

A Riemannian Optimization Perspective of the Gauss-Newton Method for Feedforward Neural Networks

要約

スムーズな活性化関数でニューラルネットワークをトレーニングするためのGauss-Newtonダイナミクスの収束を分析します。
パラメーター化されたレジームでは、ガウス・ニュートン勾配の流れは、ユークリッド出力空間の低次元の滑らかな埋め込みサブマニホールドにリーマニアの勾配流を誘導します。
Riemannianの最適化からのツールを使用して、グラムマトリックスの条件付けとは無関係の\ emponsical {emponential速度}での最適なクラス内予測因子へのリーマン勾配の流れのnems {last-itate}収束を証明します。
さらに、ニューラルネットワークスケーリング係数の重要な影響と収束挙動の初期化を特徴付けます。
オーバーパラメーター化されたレジームでは、適切に選択された減衰スケジュールを備えたLevenberg-Marquardtダイナミクスは、パラメーター化された制度に類似して、潜在的に条件付けされていない神経接線カーネルマトリックスにもかかわらず、収束率が速いことを示します。
これらの発見は、特にカーネルとグラムのマトリックスが特異な値を持っている条件付きの問題のない問題において、近接化レジームにおいて、ニューラルネットワークを効率的に最適化するためのGauss-Newton方法の可能性を示しています。

要約(オリジナル)

We analyze the convergence of Gauss-Newton dynamics for training neural networks with smooth activation functions. In the underparameterized regime, the Gauss-Newton gradient flow induces a Riemannian gradient flow on a low-dimensional, smooth, embedded submanifold of the Euclidean output space. Using tools from Riemannian optimization, we prove \emph{last-iterate} convergence of the Riemannian gradient flow to the optimal in-class predictor at an \emph{exponential rate} that is independent of the conditioning of the Gram matrix, \emph{without} requiring explicit regularization. We further characterize the critical impacts of the neural network scaling factor and the initialization on the convergence behavior. In the overparameterized regime, we show that the Levenberg-Marquardt dynamics with an appropriately chosen damping schedule yields fast convergence rate despite potentially ill-conditioned neural tangent kernel matrices, analogous to the underparameterized regime. These findings demonstrate the potential of Gauss-Newton methods for efficiently optimizing neural networks in the near-initialization regime, particularly in ill-conditioned problems where kernel and Gram matrices have small singular values.

arxiv情報

著者 Semih Cayci
発行日 2025-06-06 15:33:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY, math.OC, stat.ML | A Riemannian Optimization Perspective of the Gauss-Newton Method for Feedforward Neural Networks はコメントを受け付けていません

DyGMamba: Efficiently Modeling Long-Term Temporal Dependency on Continuous-Time Dynamic Graphs with State Space Models

要約

連続時間動的グラフ(CTDG)の有用な表現を学習することは、長いノードの相互作用履歴に渡り、微妙な時間的詳細を把握する必要があるため、困難です。
特に、2つの問題が発生します。(1)より長い履歴をエンコードするには、より多くの計算リソースが必要であり、CTDGモデルが効率を確保するために低い計算の複雑さを維持することが重要になります。
(2)一方、より強力なモデルは、より長い履歴によって提供される拡張コンテキスト内で最も重要な時間情報を特定して選択するために必要です。
これらの問題に対処するために、人気のあるマンバ州スペースモデル(SSM)に由来するDygmambaという名前のCTDG表現学習モデルを提案します。
Dygmambaは最初にノードレベルのSSMを活用して、履歴ノード相互作用のシーケンスをエンコードします。
次に、別のタイムレベルのSSMを使用して、履歴グラフに隠された時間的パターンを活用します。そこでは、その出力を使用して、相互作用履歴から重要な情報を動的に選択します。
動的リンク予測タスクでDygmambaを実験的に検証します。
結果は、ほとんどの場合、モデルが最先端を達成することを示しています。
Dygmambaはまた、計算リソースの点で高い効率を維持しており、限られた計算予算で長い時間依存性をキャプチャすることが可能になります。

要約(オリジナル)

Learning useful representations for continuous-time dynamic graphs (CTDGs) is challenging, due to the concurrent need to span long node interaction histories and grasp nuanced temporal details. In particular, two problems emerge: (1) Encoding longer histories requires more computational resources, making it crucial for CTDG models to maintain low computational complexity to ensure efficiency; (2) Meanwhile, more powerful models are needed to identify and select the most critical temporal information within the extended context provided by longer histories. To address these problems, we propose a CTDG representation learning model named DyGMamba, originating from the popular Mamba state space model (SSM). DyGMamba first leverages a node-level SSM to encode the sequence of historical node interactions. Another time-level SSM is then employed to exploit the temporal patterns hidden in the historical graph, where its output is used to dynamically select the critical information from the interaction history. We validate DyGMamba experimentally on the dynamic link prediction task. The results show that our model achieves state-of-the-art in most cases. DyGMamba also maintains high efficiency in terms of computational resources, making it possible to capture long temporal dependencies with a limited computation budget.

arxiv情報

著者 Zifeng Ding,Yifeng Li,Yuan He,Antonio Norelli,Jingcheng Wu,Volker Tresp,Michael Bronstein,Yunpu Ma
発行日 2025-06-06 15:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | DyGMamba: Efficiently Modeling Long-Term Temporal Dependency on Continuous-Time Dynamic Graphs with State Space Models はコメントを受け付けていません