Fine-tuning Large Language Models for Entity Matching

要約

生成大規模な言語モデル(LLMS)は、ゼロショットのパフォーマンスが高く、目に見えないエンティティに一般化する能力により、エンティティマッチングの事前訓練を受けた言語モデルの有望な代替手段です。
エンティティマッチングにLLMを使用することに関する既存の研究は、迅速なエンジニアリングとコンテキスト内学習に焦点を当てています。
このペーパーでは、エンティティマッチングのための微調整LLMの可能性を調査します。
2つの次元に沿って微調整を分析します。1)トレーニングの例の表現。トレーニングセットにさまざまなタイプのLLM生成された説明を追加し、2)LLMを使用したトレーニング例の選択と生成の実験。
ソースデータセットの一致するパフォーマンスに加えて、微調整が他のドメイン内データセットや局所ドメイン全体に一般化するモデル能力にどのように影響するかを調査します。
私たちの実験は、微調整が小型モデルのパフォーマンスを大幅に改善し、より大きなモデルの結果が混合されることを示しています。
また、微調整は、クロスドメインの伝達を傷つけながら、ドメイン内データセットへの一般化を改善します。
構造化された説明をトレーニングセットに追加することは、4つのLLMのうち3つのパフォーマンスにプラスの影響を与える一方で、提案された例の選択と生成方法は、GPT-4O-MINIのパフォーマンスを低下させながらLLAMA 3.1 8Bのパフォーマンスを改善するだけであることを示します。

要約(オリジナル)

Generative large language models (LLMs) are a promising alternative to pre-trained language models for entity matching due to their high zero-shot performance and ability to generalize to unseen entities. Existing research on using LLMs for entity matching has focused on prompt engineering and in-context learning. This paper explores the potential of fine-tuning LLMs for entity matching. We analyze fine-tuning along two dimensions: 1) the representation of training examples, where we experiment with adding different types of LLM-generated explanations to the training set, and 2) the selection and generation of training examples using LLMs. In addition to the matching performance on the source dataset, we investigate how fine-tuning affects the models ability to generalize to other in-domain datasets as well as across topical domains. Our experiments show that fine-tuning significantly improves the performance of the smaller models while the results for the larger models are mixed. Fine-tuning also improves the generalization to in-domain datasets while hurting cross-domain transfer. We show that adding structured explanations to the training set has a positive impact on the performance of three out of four LLMs, while the proposed example selection and generation methods, only improve the performance of Llama 3.1 8B while decreasing the performance of GPT-4o-mini.

arxiv情報

著者 Aaron Steiner,Ralph Peeters,Christian Bizer
発行日 2025-05-21 16:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2.7 | Fine-tuning Large Language Models for Entity Matching はコメントを受け付けていません

Causal Predictive Optimization and Generation for Business AI

要約

販売プロセスには、販売機能がリードまたは機会を顧客に変換し、より多くの製品を既存の顧客に販売することが含まれます。
したがって、販売プロセスの最適化は、B2Bビジネスの成功の鍵です。
この作業では、販売最適化とビジネスAIへの原則的なアプローチ、すなわち、3つの層を含む因果予測最適化と生成を紹介します。1)因果ML 2)制約最適化とコンテキストバンディット3)生成AIとシステム強化のフィードバックルップを備えたコンテキスト層3)
LinkedInでのシステムの実装と展開について詳しく説明し、レガシーシステムに対する重要な勝利を紹介し、この分野に広く適用される学習と洞察を共有します。

要約(オリジナル)

The sales process involves sales functions converting leads or opportunities to customers and selling more products to existing customers. The optimization of the sales process thus is key to success of any B2B business. In this work, we introduce a principled approach to sales optimization and business AI, namely the Causal Predictive Optimization and Generation, which includes three layers: 1) prediction layer with causal ML 2) optimization layer with constraint optimization and contextual bandit 3) serving layer with Generative AI and feedback-loop for system enhancement. We detail the implementation and deployment of the system in LinkedIn, showcasing significant wins over legacy systems and sharing learning and insight broadly applicable to this field.

arxiv情報

著者 Liyang Zhao,Olurotimi Seton,Himadeep Reddy Reddivari,Suvendu Jena,Shadow Zhao,Rachit Kumar,Changshuai Wei
発行日 2025-05-21 16:12:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG, stat.ML | Causal Predictive Optimization and Generation for Business AI はコメントを受け付けていません

Shared Path: Unraveling Memorization in Multilingual LLMs through Language Similarities

要約

多言語の大規模な言語モデル(MLLM)での暗記に関する最初の包括的な研究を提示し、多様なモデルスケール、アーキテクチャ、および暗記の定義全体のモデルを使用して95の言語を分析します。
MLLMがますます展開されるにつれて、彼らの暗記行動を理解することが重要になりました。
しかし、以前の作業は主に単一言語モデルに焦点を合わせており、本質的に長期にわたる訓練コーパスの性質にもかかわらず、多言語の暗記が不足していません。
暗記はトレーニングデータの可用性と非常に相関しているという一般的な仮定は、MLLMの記憶パターンを完全に説明できないことがわかります。
私たちは、言語を単独で扱う – それらの類似性を無視する – は、暗記の真のパターンを曖昧にすると仮定します。
これに対処するために、言語の類似性を組み込んだ新しいグラフベースの相関指標を提案します。
私たちの分析は、同様の言語の中で、トレーニングトークンが少ない言語の中で、より高い暗記を示す傾向があることが明らかになりました。
これらの発見は、MLLMの記憶の脆弱性を評価し、緩和する際の言語認識の視点の重要性を強調しています。
これは、言語の類似性がMLLMの記憶と、多言語のNLPに幅広い意味を持つ、言語横断的移動性の基礎を説明するという経験的証拠も構成しています。

要約(オリジナル)

We present the first comprehensive study of Memorization in Multilingual Large Language Models (MLLMs), analyzing 95 languages using models across diverse model scales, architectures, and memorization definitions. As MLLMs are increasingly deployed, understanding their memorization behavior has become critical. Yet prior work has focused primarily on monolingual models, leaving multilingual memorization underexplored, despite the inherently long-tailed nature of training corpora. We find that the prevailing assumption, that memorization is highly correlated with training data availability, fails to fully explain memorization patterns in MLLMs. We hypothesize that treating languages in isolation – ignoring their similarities – obscures the true patterns of memorization. To address this, we propose a novel graph-based correlation metric that incorporates language similarity to analyze cross-lingual memorization. Our analysis reveals that among similar languages, those with fewer training tokens tend to exhibit higher memorization, a trend that only emerges when cross-lingual relationships are explicitly modeled. These findings underscore the importance of a language-aware perspective in evaluating and mitigating memorization vulnerabilities in MLLMs. This also constitutes empirical evidence that language similarity both explains Memorization in MLLMs and underpins Cross-lingual Transferability, with broad implications for multilingual NLP.

arxiv情報

著者 Xiaoyu Luo,Yiyi Chen,Johannes Bjerva,Qiongxiu Li
発行日 2025-05-21 16:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Shared Path: Unraveling Memorization in Multilingual LLMs through Language Similarities はコメントを受け付けていません

Probing Semantic Routing in Large Mixture-of-Expert Models

要約

過去1年間で、大規模な(> 100Bパラメーター)混合物(MOE)モデルがオープンドメインでますます一般的になっています。
それらの利点は効率性の点でしばしば組み立てられていますが、以前の研究では、ルーティング動作による機能的区別も調査されています。
大型MOEモデルの専門家ルーティングが入力のセマンティクスの影響を受けるかどうかを調査します。
これをテストするために、2つの制御された実験を設計します。
まず、文ペアのアクティベーションを、同じまたは異なる感覚で使用される共有ターゲットワードと比較します。
次に、コンテキストを修正し、ターゲットワードを意味的に類似したまたは異なる代替案に置き換えます。
これらの条件全体で専門家の重複を比較すると、大規模なMOEモデルにおけるセマンティックルーティングの明確で統計的に有意な証拠が明らかになります。

要約(オリジナル)

In the past year, large (>100B parameter) mixture-of-expert (MoE) models have become increasingly common in the open domain. While their advantages are often framed in terms of efficiency, prior work has also explored functional differentiation through routing behavior. We investigate whether expert routing in large MoE models is influenced by the semantics of the inputs. To test this, we design two controlled experiments. First, we compare activations on sentence pairs with a shared target word used in the same or different senses. Second, we fix context and substitute the target word with semantically similar or dissimilar alternatives. Comparing expert overlap across these conditions reveals clear, statistically significant evidence of semantic routing in large MoE models.

arxiv情報

著者 Matthew Lyle Olson,Neale Ratzlaff,Musashi Hinck,Man Luo,Sungduk Yu,Chendi Xue,Vasudev Lal
発行日 2025-05-21 16:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Probing Semantic Routing in Large Mixture-of-Expert Models はコメントを受け付けていません

DEBATE, TRAIN, EVOLVE: Self Evolution of Language Model Reasoning

要約

大規模な言語モデル(LLM)は、大規模なデータセットに関する広範なトレーニングを通じて、推論が大幅に改善されました。
ただし、改善のための追加データのみに依存することはますます非現実的になりつつあり、モデルが外部の監督なしで自律的に推論を強化する必要性を強調しています。
このペーパーでは、多象徴的な討論の痕跡を使用して単一言語モデルを進化させる、討論、訓練、Evolve(DTE)を提案します。
また、エージェントに推論を批判し洗練するように明示的に指示することにより、議論の質を向上させるために、新しいプロンプト戦略を反映して批判的にrefineする新しいプロンプト戦略を紹介します。
6つのオープンウェイトモデルを備えた5つの推論ベンチマークに関する広範な評価は、DTEフレームワークが大幅に改善され、挑戦的なGSMプラスデータセットで平均精度が8.92%であることを示しています。
さらに、他のすべてのベンチマークで5.8%の平均精度の増加で、強力なクロスドメインの一般化が観察されており、この方法が一般的な推論能力をキャプチャしていることを示唆しています。

要約(オリジナル)

Large language models (LLMs) have improved significantly in their reasoning through extensive training on massive datasets. However, relying solely on additional data for improvement is becoming increasingly impractical, highlighting the need for models to autonomously enhance their reasoning without external supervision. In this paper, we propose Debate, Train, Evolve (DTE), a novel ground truth-free training framework that uses multi-agent debate traces to evolve a single language model. We also introduce a new prompting strategy Reflect-Critique-Refine, to improve debate quality by explicitly instructing agents to critique and refine their reasoning. Extensive evaluations on five reasoning benchmarks with six open-weight models show that our DTE framework achieve substantial improvements, with an average accuracy gain of 8.92% on the challenging GSM-PLUS dataset. Furthermore, we observe strong cross-domain generalization, with an average accuracy gain of 5.8% on all other benchmarks, suggesting that our method captures general reasoning capabilities.

arxiv情報

著者 Gaurav Srivastava,Zhenyu Bi,Meng Lu,Xuan Wang
発行日 2025-05-21 16:40:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | DEBATE, TRAIN, EVOLVE: Self Evolution of Language Model Reasoning はコメントを受け付けていません

Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses

要約

大規模な言語モデル(LLMS)は、チャットボットからエージェントシステムに至るまで、実際のアプリケーションに迅速に展開されます。
アラインメントは、迅速な注入や脱獄などの攻撃から防御するために使用される主要なアプローチの1つです。
最近の防御は、攻撃者が決定する出力を誘導するために敵対的な接尾辞を生成するホワイトボックス攻撃である、貪欲な座標勾配(GCG)に対しても、ゼロの攻撃の成功率(ASR)を報告しています。
ただし、離散トークン上のこの検索スペースは非常に大きく、成功した攻撃を見つけるタスクは困難です。
たとえば、GCGはローカルミニマに収束することが示されており、初期化の選択に敏感になっています。
この論文では、より情報に基づいた脅威モデルを使用して、これらの防御の将来の堅牢性を評価します。これは、アライメントプロセスに関する情報にアクセスできる攻撃者です。
具体的には、中間モデルのチェックポイントを活用してGCGを初期化する情報に基づいたホワイトボックス攻撃を提案します。各チェックポイントは次のチェックポイントとして機能します。
このアプローチは、最先端の(SOTA)防御とモデル全体で非常に効果的であることを示しています。
さらに、他の初期化方法を上回るための情報に基づいた初期化を示し、攻撃のパフォーマンスと効率を大幅に改善するために、グラデーションに基づいたチェックポイント選択戦略を示します。
重要なことに、普遍的な敵対的な接尾辞、つまり多様な入力にわたって効果的な単一のサフィックスをうまく見つける方法も示しています。
私たちの結果は、以前の信念とは反対に、SOTAアライメントベースの防御に対して効果的な敵対的な接尾辞が存在すること、敵がアラインメントの知識を活用するときに既存の攻撃方法によって見つけることができ、普遍的な接尾辞も存在することを示しています。
まとめると、我々の結果は、現在のアライメントベースの方法の脆性性と、LLMSの安全性をテストする際に強い脅威モデルを考慮する必要性を強調しています。

要約(オリジナル)

Large language models (LLMs) are rapidly deployed in real-world applications ranging from chatbots to agentic systems. Alignment is one of the main approaches used to defend against attacks such as prompt injection and jailbreaks. Recent defenses report near-zero Attack Success Rates (ASR) even against Greedy Coordinate Gradient (GCG), a white-box attack that generates adversarial suffixes to induce attacker-desired outputs. However, this search space over discrete tokens is extremely large, making the task of finding successful attacks difficult. GCG has, for instance, been shown to converge to local minima, making it sensitive to initialization choices. In this paper, we assess the future-proof robustness of these defenses using a more informed threat model: attackers who have access to some information about the alignment process. Specifically, we propose an informed white-box attack leveraging the intermediate model checkpoints to initialize GCG, with each checkpoint acting as a stepping stone for the next one. We show this approach to be highly effective across state-of-the-art (SOTA) defenses and models. We further show our informed initialization to outperform other initialization methods and show a gradient-informed checkpoint selection strategy to greatly improve attack performance and efficiency. Importantly, we also show our method to successfully find universal adversarial suffixes — single suffixes effective across diverse inputs. Our results show that, contrary to previous beliefs, effective adversarial suffixes do exist against SOTA alignment-based defenses, that these can be found by existing attack methods when adversaries exploit alignment knowledge, and that even universal suffixes exist. Taken together, our results highlight the brittleness of current alignment-based methods and the need to consider stronger threat models when testing the safety of LLMs.

arxiv情報

著者 Xiaoxue Yang,Bozhidar Stevanoski,Matthieu Meeus,Yves-Alexandre de Montjoye
発行日 2025-05-21 16:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses はコメントを受け付けていません

HybridProver: Augmenting Theorem Proving with LLM-Driven Proof Synthesis and Refinement

要約

正式な方法は、厳格な数学的証拠を通じて重要なシステムの信頼性を検証するために極めて重要です。
ただし、その採用は、労働集約的なマニュアルプルーフと定理プロバーを使用するために必要な専門知識によって妨げられています。
大規模な言語モデル(LLMS)の最近の進歩は、自動定理証明のための新しい機会を提供します。
2つの有望なアプローチは、段階的に戦術を生成し、LLMで直接的な証明を生成することです。
ただし、既存の作業は、2つのアプローチを組み合わせることを試みません。
この作業では、戦術に基づく生成と総合的な合成を組み合わせて、両方のアプローチの利点を活用するデュアルモデル証明合成フレームワークであるハイブリッドプロバーを紹介します。
HybridProverは、評価のために直接証明候補全体を生成し、それらの候補者から証明スケッチを抽出します。
次に、自動化されたツールを統合して段階的な改良を介してスケッチを完成させる戦術ベースの生成モデルを使用します。
最適化されたIsabelleデータセットに、Isabelle Theorem ProverのハイブリッドプロバーとLLMSを微調整します。
MINIF2Fデータセットの評価は、ハイブリッドプロバーの有効性を示しています。
MINIF2Fで59.4%の成功率を達成し、以前のSOTAは56.1%です。
私たちのアブレーション研究は、このSOTAの結果が、根本的な世代と戦術に基づく世代を組み合わせることに起因することを示しています。
さらに、データセットの品質、トレーニングパラメーター、およびサンプリングの多様性が、LLMSで証明する自動定理中の最終結果にどのように影響するかを示します。
すべてのコード、データセット、およびLLMはオープンソースです。

要約(オリジナル)

Formal methods is pivotal for verifying the reliability of critical systems through rigorous mathematical proofs. However, its adoption is hindered by labor-intensive manual proofs and the expertise required to use theorem provers. Recent advancements in large language models (LLMs) offer new opportunities for automated theorem proving. Two promising approaches are generating tactics step by step and generating a whole proof directly with an LLM. However, existing work makes no attempt to combine the two approaches. In this work, we introduce HybridProver, a dual-model proof synthesis framework that combines tactic-based generation and whole-proof synthesis to harness the benefits of both approaches. HybridProver generates whole proof candidates for evaluation directly, then extracts proof sketches from those candidates. It then uses a tactic-based generation model that integrates automated tools to complete the sketches via stepwise refinement. We implement HybridProver for the Isabelle theorem prover and fine-tune LLMs on our optimized Isabelle datasets. Evaluation on the miniF2F dataset illustrates HybridProver’s effectiveness. We achieve a 59.4% success rate on miniF2F, where the previous SOTA is 56.1%. Our ablation studies show that this SOTA result is attributable to combining whole-proof and tactic-based generation. Additionally, we show how the dataset quality, training parameters, and sampling diversity affect the final result during automated theorem proving with LLMs. All of our code, datasets, and LLMs are open source.

arxiv情報

著者 Jilin Hu,Jianyu Zhang,Yongwang Zhao,Talia Ringer
発行日 2025-05-21 16:45:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.FL, cs.SE | HybridProver: Augmenting Theorem Proving with LLM-Driven Proof Synthesis and Refinement はコメントを受け付けていません

LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec

要約

個別の音声トークンは、言語モデルベースの音声生成に強い可能性を示していますが、その高いビットレートと冗長な音色情報がそのようなモデルの開発を制限します。
この作業では、LSCODECを提案します。LSCODECは、ビットレートとスピーカー分離能力の両方が低い離散音声コーデックです。
LSCODECは、スピーカーの摂動手法を使用して、マルチステージの監視されていないトレーニングフレームワークを採用しています。
継続的な情報ボトルネックが最初に確立され、その後、離散スピーカーが分割された空間を生成するベクトル量子化が続きます。
離散トークンボコーダーは、最終的にLSCODECのアコースティックの詳細を改良します。
再構築評価により、LSCODECは、ベースラインよりも単一のコードブックと語彙サイズが小さく、優れた明瞭度とオーディオ品質を実証します。
音声変換とスピーカーの調査実験は、LSCODECの優れたスピーカーの解体を証明し、アブレーション研究は提案されたトレーニングフレームワークの有効性を検証します。

要約(オリジナル)

Although discrete speech tokens have exhibited strong potential for language model-based speech generation, their high bitrates and redundant timbre information restrict the development of such models. In this work, we propose LSCodec, a discrete speech codec that has both low bitrate and speaker decoupling ability. LSCodec adopts a multi-stage unsupervised training framework with a speaker perturbation technique. A continuous information bottleneck is first established, followed by vector quantization that produces a discrete speaker-decoupled space. A discrete token vocoder finally refines acoustic details from LSCodec. By reconstruction evaluations, LSCodec demonstrates superior intelligibility and audio quality with only a single codebook and smaller vocabulary size than baselines. Voice conversion and speaker probing experiments prove the excellent speaker disentanglement of LSCodec, and ablation study verifies the effectiveness of the proposed training framework.

arxiv情報

著者 Yiwei Guo,Zhihan Li,Chenpeng Du,Hankun Wang,Xie Chen,Kai Yu
発行日 2025-05-21 16:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec はコメントを受け付けていません

Neuro-Argumentative Learning with Case-Based Reasoning

要約

ケースベースの推論(漸進的なAA-CBR)の段階的な抽象的な議論を紹介します。これは、神経ベースの特徴抽出因子と同時に学習される議論の議論構造によって結果が決定される、データ駆動型の神経共役分類モデルです。
議論の各議論は、トレーニングデータから観察されたケースであり、ラベル付けを支持しています。
ケースは、勾配ベースの方法を通じて学習した各議論と関係の強さで、反対または同意したラベルを持つ人々を攻撃または支援します。
この議論の議論構造は、人間に合った推論を提供し、従来のニューラルネットワーク(NNS)と比較してモデルの解釈可能性を改善します。
既存の純粋に象徴的なバリアント、ケースベースの推論(AA-CBR)の抽象的な議論とは異なり、漸進的なAA-CBRは、マルチクラス分類、機能の自動学習、データポイントの重要性の自動学習、不確実性値を結果に割り当て、利用可能なすべてのデータポイントを使用して、バイナリ機能を必要としません。
漸進的なAA-CBRは、既存のAA-CBR製剤を大幅に上回る一方で、NNSに同等に機能することを示しています。

要約(オリジナル)

We introduce Gradual Abstract Argumentation for Case-Based Reasoning (Gradual AA-CBR), a data-driven, neurosymbolic classification model in which the outcome is determined by an argumentation debate structure that is learned simultaneously with neural-based feature extractors. Each argument in the debate is an observed case from the training data, favouring their labelling. Cases attack or support those with opposing or agreeing labellings, with the strength of each argument and relationship learned through gradient-based methods. This argumentation debate structure provides human-aligned reasoning, improving model interpretability compared to traditional neural networks (NNs). Unlike the existing purely symbolic variant, Abstract Argumentation for Case-Based Reasoning (AA-CBR), Gradual AA-CBR is capable of multi-class classification, automatic learning of feature and data point importance, assigning uncertainty values to outcomes, using all available data points, and does not require binary features. We show that Gradual AA-CBR performs comparably to NNs whilst significantly outperforming existing AA-CBR formulations.

arxiv情報

著者 Adam Gould,Francesca Toni
発行日 2025-05-21 16:49:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Neuro-Argumentative Learning with Case-Based Reasoning はコメントを受け付けていません

Higher-order Structure Boosts Link Prediction on Temporal Graphs

要約

時間グラフニューラルネットワーク(TGNNS)は、時間グラフの構造をモデリングと予測するために注目を集めています。
ただし、既存のTGNNは主にペアワイズの相互作用に焦点を当て、実際の時間グラフの形成と進化をリンクするのに不可欠な高次構造を見落とします。
一方、これらのモデルはしばしば効率のボトルネックに悩まされ、表現力をさらに制限します。
これらの課題に取り組むために、ハイパーグラフ表現を時間グラフ学習に組み込む高次構造の時間グラフネットワークを提案します。
特に、基礎となる高次構造を識別するためのアルゴリズムを開発し、グループの相互作用をキャプチャするモデルの能力を高めます。
さらに、複数のエッジ機能をハイパーエッジ表現に集約することにより、HTGNはトレーニング中のメモリコストを効果的に削減します。
私たちは、私たちのアプローチの高度な表現力を理論的に実証し、さまざまな現実世界の時間グラフでの広範な実験を通じてその有効性と効率を検証します。
実験結果は、HTGNが動的リンク予測で優れたパフォーマンスを達成し、既存の方法と比較してメモリコストを最大50 \%削減することを示しています。

要約(オリジナル)

Temporal Graph Neural Networks (TGNNs) have gained growing attention for modeling and predicting structures in temporal graphs. However, existing TGNNs primarily focus on pairwise interactions while overlooking higher-order structures that are integral to link formation and evolution in real-world temporal graphs. Meanwhile, these models often suffer from efficiency bottlenecks, further limiting their expressive power. To tackle these challenges, we propose a Higher-order structure Temporal Graph Neural Network, which incorporates hypergraph representations into temporal graph learning. In particular, we develop an algorithm to identify the underlying higher-order structures, enhancing the model’s ability to capture the group interactions. Furthermore, by aggregating multiple edge features into hyperedge representations, HTGN effectively reduces memory cost during training. We theoretically demonstrate the enhanced expressiveness of our approach and validate its effectiveness and efficiency through extensive experiments on various real-world temporal graphs. Experimental results show that HTGN achieves superior performance on dynamic link prediction while reducing memory costs by up to 50\% compared to existing methods.

arxiv情報

著者 Jingzhe Liu,Zhigang Hua,Yan Xie,Bingheng Li,Harry Shomer,Yu Song,Kaveh Hassani,Jiliang Tang
発行日 2025-05-21 16:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Higher-order Structure Boosts Link Prediction on Temporal Graphs はコメントを受け付けていません