LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks

要約

多くの現実世界の決定は、機械学習アルゴリズムに依存しており、較正された不確実性の推定値が必要です。
ただし、最新の方法は、しばしば自信過剰でない予測をもたらします。
モデルに固有の不確実性を定量化するための支配的なアプローチは、個別の予測因子のアンサンブルを訓練し、それらの経験的分散を測定することです。
明示的な実装では、アンサンブルは、特に最新の変圧器のように基本モデル自体がすでに大きい場合、高い計算コストとメモリフットプリントを持っています。
これは、すべてのメンバーを明示的にインスタンス化することなく、アンサンブルをエミュレートする暗黙のアンサンブル方法を開発する努力を動機付けます。
自己関節ネットワークのパラメーター効率の高いアンサンベリング方法であるLora-Ensembleを紹介します。
元々効率的なLLM微調整のために開発された低ランク適応(LORA)に基づいており、すべてのアンサンブルメンバーが同じように訓練された自己関節ネットワークを共有しているが、注意投影のために個別の低ランクマトリックスを持っている暗黙のアンサンブルスキームに拡張します。
結果の方法は、バッチェンサンブルのような最先端の暗黙的な手法を上回るだけでなく、明示的なアンサンブルの精度に合わせたり、それを超えたりすると同時に、優れたキャリブレーションを達成します。

要約(オリジナル)

Numerous real-world decisions rely on machine learning algorithms and require calibrated uncertainty estimates. However, modern methods often yield overconfident, uncalibrated predictions. The dominant approach to quantifying the uncertainty inherent in the model is to train an ensemble of separate predictors and measure their empirical variance. In an explicit implementation, the ensemble has high computational cost and memory footprint, especially if the base model itself is already large, like modern transformers. This motivates efforts to develop implicit ensemble methods that emulate the ensemble without explicitly instantiating all its members. We introduce LoRA-Ensemble, a parameter-efficient ensembling method for self-attention networks. It is based on Low-Rank Adaptation (LoRA), originally developed for efficient LLM fine-tuning, and extends it into an implicit ensembling scheme, where all ensemble members share the same, pre-trained self-attention network, but have individual low-rank matrices for the attention projections. The resulting method not only outperforms state-of-the-art implicit techniques like BatchEnsemble, but even matches or exceeds the accuracy of an Explicit Ensemble, while at the same time achieving superior calibration.

arxiv情報

著者 Dominik J. Mühlematter,Michelle Halbheer,Alexander Becker,Dominik Narnhofer,Helge Aasen,Konrad Schindler,Mehmet Ozgur Turkoglu
発行日 2025-05-23 15:30:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks はコメントを受け付けていません

Improved Algorithms for Overlapping and Robust Clustering of Edge-Colored Hypergraphs: An LP-Based Combinatorial Approach

要約

クラスタリングは、機械学習とデータマイニングの両方における基本的なタスクです。
さまざまな方法の中で、エッジ色のクラスタリング(ECC)は、カテゴリデータを処理するための有用なアプローチとして浮上しています。
色でラベル付けされた(ハイパー)エッジを備えたハイパーグラフを考えると、ECCは頂点の色がエッジの色と異なるエッジの数を最小限に抑えるために頂点の色を割り当てることを目指しています。
ただし、従来のECCには固有の制限があります。これは、非重複した網羅的なクラスタリングを実施するためです。
これらの制限に取り組むために、ECCの3つのバージョンが研究されています。ローカルECCとクラスターの重複を可能にするグローバルECCと、頂点の外れ値を説明する堅牢なECCです。
これらの問題については、線形プログラミング(LP)の丸めアルゴリズムと貪欲な組み合わせアルゴリズムの両方が提案されています。
これらのLPラウンティングアルゴリズムは高品質のソリューションを提供しますが、かなりの計算時間を要求します。
一方、貪欲なアルゴリズムは非常に速く実行されますが、多くの場合、ソリューションの品質を妥協します。
この論文では、LPの強度と組み合わせアルゴリズムの計算効率を組み合わせたアルゴリズムフレームワークを提示します。
実験的分析と理論分析の両方が、アルゴリズムが3つの問題すべて、ローカル、グローバル、堅牢なECCの高品質のソリューションを効率的に生成することを示しています。
複雑さの理論的不可逆性の結果と積分ギャップバウンドでアルゴリズムの貢献を補完します。これは、重要な理論的改善がありそうにないことを示唆しています。
また、私たちの結果は、以前に文献で提起された2つの未解決の質問にも答えています。

要約(オリジナル)

Clustering is a fundamental task in both machine learning and data mining. Among various methods, edge-colored clustering (ECC) has emerged as a useful approach for handling categorical data. Given a hypergraph with (hyper)edges labeled by colors, ECC aims to assign vertex colors to minimize the number of edges where the vertex color differs from the edge’s color. However, traditional ECC has inherent limitations, as it enforces a nonoverlapping and exhaustive clustering. To tackle these limitations, three versions of ECC have been studied: Local ECC and Global ECC, which allow overlapping clusters, and Robust ECC, which accounts for vertex outliers. For these problems, both linear programming (LP) rounding algorithms and greedy combinatorial algorithms have been proposed. While these LP-rounding algorithms provide high-quality solutions, they demand substantial computation time; the greedy algorithms, on the other hand, run very fast but often compromise solution quality. In this paper, we present an algorithmic framework that combines the strengths of LP with the computational efficiency of combinatorial algorithms. Both experimental and theoretical analyses show that our algorithms efficiently produce high-quality solutions for all three problems: Local, Global, and Robust ECC. We complement our algorithmic contributions with complexity-theoretic inapproximability results and integrality gap bounds, which suggest that significant theoretical improvements are unlikely. Our results also answer two open questions previously raised in the literature.

arxiv情報

著者 Changyeol Lee,Yongho Shin,Hyung-Chan An
発行日 2025-05-23 15:46:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.DS, cs.LG | Improved Algorithms for Overlapping and Robust Clustering of Edge-Colored Hypergraphs: An LP-Based Combinatorial Approach はコメントを受け付けていません

Learning with Restricted Boltzmann Machines: Asymptotics of AMP and GD in High Dimensions

要約

制限付きボルツマンマシン(RBM)は、入力分布を学習できる最も単純な生成ニューラルネットワークの1つです。
その単純さにもかかわらず、トレーニングデータからの学習におけるパフォーマンスの分析は、データの特異値分解に本質的に減少する場合にのみよく理解されています。
ここでは、入力スペースの大きな寸法の限界と一定の数の隠されたユニットを検討します。
この制限では、標準のRBMトレーニング目標を、分離不可能な正則化を伴うマルチインデックスモデルに相当するフォームに簡素化します。
これにより、近似メッセージパッシング(AMP)やその状態進化などのマルチインデックスモデル用に確立されたメソッド、および動的平均フィールド理論を介した勾配降下(GD)の分析を使用して、RBMのトレーニングを分析するパスが開かれます。
次に、監視されていない学習に適した構造のプロトタイプとして、スパイクされた共分散モデルによって生成されたデータ上で、RBMのトレーニングダイナミクスの厳密な漸近性を提供します。
特に、RBMは、スパイクされた共分散モデルで、BBP遷移に合わせて最適な計算弱い回復しきい値に達することを示しています。

要約(オリジナル)

The Restricted Boltzmann Machine (RBM) is one of the simplest generative neural networks capable of learning input distributions. Despite its simplicity, the analysis of its performance in learning from the training data is only well understood in cases that essentially reduce to singular value decomposition of the data. Here, we consider the limit of a large dimension of the input space and a constant number of hidden units. In this limit, we simplify the standard RBM training objective into a form that is equivalent to the multi-index model with non-separable regularization. This opens a path to analyze training of the RBM using methods that are established for multi-index models, such as Approximate Message Passing (AMP) and its state evolution, and the analysis of Gradient Descent (GD) via the dynamical mean-field theory. We then give rigorous asymptotics of the training dynamics of RBM on data generated by the spiked covariance model as a prototype of a structure suitable for unsupervised learning. We show in particular that RBM reaches the optimal computational weak recovery threshold, aligning with the BBP transition, in the spiked covariance model.

arxiv情報

著者 Yizhou Xu,Florent Krzakala,Lenka Zdeborová
発行日 2025-05-23 15:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML | Learning with Restricted Boltzmann Machines: Asymptotics of AMP and GD in High Dimensions はコメントを受け付けていません

Asymptotically optimal regret in communicating Markov decision processes

要約

この論文では、通信仮定の下で平均報酬でマルコフ決定プロセスに対して漸近的に最適な後悔を達成する学習アルゴリズムを提示します。
つまり、通信マルコフの決定プロセス$ m $を考えると、アルゴリズムは$ k(m)\ log(t) + \ mathrm {o}(\ log(t))$を後悔しています。
このアルゴリズムは、一定の$ k(m)$を明示的に追跡して最適に学習することで機能し、その後、探査(情報を得るために最適に再生する)、共同普通(情報を得るために最適に再生)、搾取(最適に再生するために最大限に獲得する)間のトレードオフのバランスをとります。
さらに、関数$ k(m)$が不連続であることを示します。これは、私たちのアプローチにとって結果の課題です。
そのため、経験的データから任意の精度で$ k(m)$を推定する正則化メカニズムについて説明します。

要約(オリジナル)

In this paper, we present a learning algorithm that achieves asymptotically optimal regret for Markov decision processes in average reward under a communicating assumption. That is, given a communicating Markov decision process $M$, our algorithm has regret $K(M) \log(T) + \mathrm{o}(\log(T))$ where $T$ is the number of learning steps and $K(M)$ is the best possible constant. This algorithm works by explicitly tracking the constant $K(M)$ to learn optimally, then balances the trade-off between exploration (playing sub-optimally to gain information), co-exploration (playing optimally to gain information) and exploitation (playing optimally to score maximally). We further show that the function $K(M)$ is discontinuous, which is a consequence challenge for our approach. To that end, we describe a regularization mechanism to estimate $K(M)$ with arbitrary precision from empirical data.

arxiv情報

著者 Victor Boone
発行日 2025-05-23 16:11:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Asymptotically optimal regret in communicating Markov decision processes はコメントを受け付けていません

Reward Model Generalization for Compute-Aware Test-Time Reasoning

要約

外部のテスト時間推論は、生成と選択を切り離すことにより、大規模な言語モデル(LLM)を強化します。
推論時に、モデルは複数の推論パスを生成し、補助プロセス報酬モデル(PRM)を使用して、最高のスコアと選択を選択します。
この設定の中心的な課題は、テスト時間計算最適性(TCO)です。つまり、固定推論予算の下で回答の精度を最大化する方法です。
この作業では、PRMの一般化エラーが計算効率と推論パフォーマンスにどのように影響するかを分析するための理論的枠組みを確立します。
PAC-Bayes理論を活用すると、一般化の境界を導き出し、PRMの一般化エラーが低いと、正解を見つけるのに必要なサンプルが少なくなることが示されます。
この分析に動機付けられているため、検索動作を動的に制御する俳優criticフレームワークであるCompute-Aware Tree Search(CATS)を提案します。
アクターは、報酬分布とスパース統計に基づいてサンプリングハイパーパラメーターを出力しますが、批評家は予算の割り当てを導くためにその有用性を推定します。
さまざまなLLMSおよびPRMSを使用した数学とAIMEのベンチマークに関する実験は、CATが他の外部TTSメソッドを常に上回ることを示しており、理論的予測を検証しています。

要約(オリジナル)

External test-time reasoning enhances large language models (LLMs) by decoupling generation and selection. At inference time, the model generates multiple reasoning paths, and an auxiliary process reward model (PRM) is used to score and select the best one. A central challenge in this setting is test-time compute optimality (TCO), i.e., how to maximize answer accuracy under a fixed inference budget. In this work, we establish a theoretical framework to analyze how the generalization error of the PRM affects compute efficiency and reasoning performance. Leveraging PAC-Bayes theory, we derive generalization bounds and show that a lower generalization error of PRM leads to fewer samples required to find correct answers. Motivated by this analysis, we propose Compute-Aware Tree Search (CATS), an actor-critic framework that dynamically controls search behavior. The actor outputs sampling hyperparameters based on reward distributions and sparsity statistics, while the critic estimates their utility to guide budget allocation. Experiments on the MATH and AIME benchmarks with various LLMs and PRMs demonstrate that CATS consistently outperforms other external TTS methods, validating our theoretical predictions.

arxiv情報

著者 Zeen Song,Wenwen Qiang,Siyu Zhao,Changwen Zheng,Gang Hua
発行日 2025-05-23 16:12:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Reward Model Generalization for Compute-Aware Test-Time Reasoning はコメントを受け付けていません

Emergence of Hebbian Dynamics in Regularized Non-Local Learners

要約

確率的勾配降下(SGD)は、大規模な言語モデルから自律車両まで、ほぼすべての最先端の機械学習モデルを支える非常に効果的な学習アルゴリズムとして浮上しています。
その実際的な成功にもかかわらず、SGDは生物学的学習メカニズムと根本的に異なるように見えます。
生物学的脳は非ローカルであるため勾配降下を実装できないと広く信じられており、私たちはそれの実験的証拠をほとんど(もしあれば)発見しています。
対照的に、脳は、勾配降下と互換性がないと見なされている地元のヘビアン学習原則を介して学習すると広く考えられています。
この論文では、体重減衰でSGDを使用して訓練されたニューラルネットワークの学習信号と、収束近くのヘビアン学習で訓練されたものとの間の理論的かつ経験的なつながりを確立します。
正規化を伴うSGDは、ヘブのルールに従って学習し、抗ヘビアンルールに従って注入されたノイズを備えたSGDが学習できるように見えることを示します。
また、ヘビアンの学習特性が、実質的にすべての学習ルールからの重量減衰(ランダムなルールからのネットワークで出現できる」という経験的証拠も提供します。
これらの結果は、人工学習と生物学的学習の間の長年のギャップを埋める可能性があり、ヘビアンの特性がより深い最適化の原則のエピフェノンとして明らかになり、より複雑なヘテロシナプスメカニズムに対する証拠として神経データにおけるそれらの存在を解釈することに注意することができます。

要約(オリジナル)

Stochastic Gradient Descent (SGD) has emerged as a remarkably effective learning algorithm, underpinning nearly all state-of-the-art machine learning models, from large language models to autonomous vehicles. Despite its practical success, SGD appears fundamentally distinct from biological learning mechanisms. It is widely believed that the biological brain can not implement gradient descent because it is nonlocal, and we have found little (if any) experimental evidence for it. In contrast, the brain is widely thought to learn via local Hebbian learning principles, which have been seen as incompatible with gradient descent. In this paper, we establish a theoretical and empirical connection between the learning signals of neural networks trained using SGD with weight decay and those trained with Hebbian learning near convergence. We show that SGD with regularization can appear to learn according to a Hebbian rule, and SGD with injected noise according to an anti-Hebbian rule. We also provide empirical evidence that Hebbian learning properties can emerge in a network with weight decay from virtually any learning rule–even random ones. These results may bridge a long-standing gap between artificial and biological learning, revealing Hebbian properties as an epiphenomenon of deeper optimization principles and cautioning against interpreting their presence in neural data as evidence against more complex hetero-synaptic mechanisms.

arxiv情報

著者 David Koplow,Tomaso Poggio,Liu Ziyin
発行日 2025-05-23 16:16:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Emergence of Hebbian Dynamics in Regularized Non-Local Learners はコメントを受け付けていません

Bayesian Deep Learning for Discrete Choice

要約

離散選択モデル(DCM)は、輸送の選択、政治選挙、消費者の好みなどのコンテキストでの個々の意思決定を分析するために使用されます。
DCMは、新しい非標識データの選択の予測だけに焦点を当てるのではなく、代替の限界速度など、主要な経済変数に推論を可能にすることにより、応用計量経済学において中心的な役割を果たします。
ただし、従来のDCMは、経済量のポイントとインターバル推定の高い解釈性とサポートを提供しますが、これらのモデルは、ディープラーニング(DL)モデルと比較して予測タスクでパフォーマンスが低下していることがよくあります。
予測上の利点にもかかわらず、DLモデルは、解釈可能性の欠如、不安定なパラメーターの推定値、不確実性の定量化のための確立された方法がないことに関する懸念により、個別の選択ではほとんど十分に活用されていません。
ここでは、確率的勾配ランジュビンダイナミクス(SGLD)などのおおよそのベイジアン推論方法と統合するように特別に設計された深い学習モデルアーキテクチャを紹介します。
私たちの提案されたモデルは、データが制限されているときに行動的に情報に基づいた仮説に崩壊し、十分なデータが利用可能な場合に複雑な非線形関係をキャプチャする柔軟性を保持しながら、概念のない設定の過剰適合と不安定性を軽減します。
モンテカルロシミュレーション研究を通じてSGLDを使用してアプローチを実証し、代替インターバル推定値の限界率の経験的カバレッジなど、サンプル外のバランスの正確性と推論的メトリックなどの予測メトリックの両方を評価します。
さらに、2つの実証的なケーススタディの結果を示します。1つはNYCで明らかにされたモード選択データを使用し、もう1つは広く使用されているスイスの列車の選択肢に基づいていることを示しています。

要約(オリジナル)

Discrete choice models (DCMs) are used to analyze individual decision-making in contexts such as transportation choices, political elections, and consumer preferences. DCMs play a central role in applied econometrics by enabling inference on key economic variables, such as marginal rates of substitution, rather than focusing solely on predicting choices on new unlabeled data. However, while traditional DCMs offer high interpretability and support for point and interval estimation of economic quantities, these models often underperform in predictive tasks compared to deep learning (DL) models. Despite their predictive advantages, DL models remain largely underutilized in discrete choice due to concerns about their lack of interpretability, unstable parameter estimates, and the absence of established methods for uncertainty quantification. Here, we introduce a deep learning model architecture specifically designed to integrate with approximate Bayesian inference methods, such as Stochastic Gradient Langevin Dynamics (SGLD). Our proposed model collapses to behaviorally informed hypotheses when data is limited, mitigating overfitting and instability in underspecified settings while retaining the flexibility to capture complex nonlinear relationships when sufficient data is available. We demonstrate our approach using SGLD through a Monte Carlo simulation study, evaluating both predictive metrics–such as out-of-sample balanced accuracy–and inferential metrics–such as empirical coverage for marginal rates of substitution interval estimates. Additionally, we present results from two empirical case studies: one using revealed mode choice data in NYC, and the other based on the widely used Swiss train choice stated preference data.

arxiv情報

著者 Daniel F. Villarraga,Ricardo A. Daziano
発行日 2025-05-23 16:33:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, stat.AP, stat.ML | Bayesian Deep Learning for Discrete Choice はコメントを受け付けていません

An Iterative Framework for Generative Backmapping of Coarse Grained Proteins

要約

特にタンパク質などの複雑なシステムに適用される場合、粗粒(CG)から細粒(FG)表現までのデータ駆動型バックマッピングの手法は、精度、不安定なトレーニング、および物理的リアリズムに苦労することがよくあります。
この作業では、このような大規模な生体分子に関連する課題に取り組むために特別に設計された条件付き変分自動エンコーダーとグラフベースのニューラルネットワークを使用して、新しい反復フレームワークを紹介します。
私たちの方法により、CGビーズから完全な原子的詳細への段階的な改良性が可能になります。
反復的な生成バックマッピングの理論を概説し、数値実験を介して、非常に粗い表現を持つ非常に異なる構造のタンパク質にそれらを適用することにより、多段階スキームの利点を実証します。
この多段階アプローチは、再構成の精度を改善するだけでなく、トレーニングプロセスを超CG表現を持つタンパク質に対してより計算上効率的にします。

要約(オリジナル)

The techniques of data-driven backmapping from coarse-grained (CG) to fine-grained (FG) representation often struggle with accuracy, unstable training, and physical realism, especially when applied to complex systems such as proteins. In this work, we introduce a novel iterative framework by using conditional Variational Autoencoders and graph-based neural networks, specifically designed to tackle the challenges associated with such large-scale biomolecules. Our method enables stepwise refinement from CG beads to full atomistic details. We outline the theory of iterative generative backmapping and demonstrate via numerical experiments the advantages of multistep schemes by applying them to proteins of vastly different structures with very coarse representations. This multistep approach not only improves the accuracy of reconstructions but also makes the training process more computationally efficient for proteins with ultra-CG representations.

arxiv情報

著者 Georgios Kementzidis,Erin Wong,John Nicholson,Ruichen Xu,Yuefan Deng
発行日 2025-05-23 16:40:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | An Iterative Framework for Generative Backmapping of Coarse Grained Proteins はコメントを受け付けていません

What Do You Need for Diverse Trajectory Stitching in Diffusion Planning?

要約

計画において、ステッチは、新しい多様な動作を生成するためにトレーニングされているデータのサブトレクタをまとめるアルゴリズムの能力です。
ステッチは歴史的にオフラインの強化学習の強さですが、最近の生成行動クローニング(BC)方法もステッチの習熟度を示しています。
ただし、この背後にある主な要因はよく理解されており、確実にステッチできる新しいアルゴリズムの開発を妨げています。
BCを介してトレーニングされた拡散プランナーに焦点を当てて、構成するために2つのプロパティが必要であることがわかります:\ emph {positional equivariance}と\ emph {local受容性}。
これらの2つのプロパティを使用して、拡散頻度、データ増強、データスケーリングなど、拡散計画に基づいた既存の生成BCメソッドのアーキテクチャ、データ、および推論の選択を説明します。
実験的な比較は、(1)組成が可能な拡散プランナーを作成する際の位置的等価性よりも地域性が重要であるが、どちらも重要なものであることを示しています(2)比較的単純なアーキテクチャの選択を通じてこれらの特性を可能にすることは、データの再整理やスケーリングデータなど、より計算的に高価な方法と競争力があり、(3)単純なインテクテントの組成モデルを設定することができます。

要約(オリジナル)

In planning, stitching is an ability of algorithms to piece together sub-trajectories of data they are trained on to generate new and diverse behaviours. While stitching is historically a strength of offline reinforcement learning, recent generative behavioural cloning (BC) methods have also shown proficiency at stitching. However, the main factors behind this are poorly understood, hindering the development of new algorithms that can reliably stitch. Focusing on diffusion planners trained via BC, we find two properties are needed to compose: \emph{positional equivariance} and \emph{local receptiveness}. We use these two properties to explain architecture, data, and inference choices in existing generative BC methods based on diffusion planning, including replanning frequency, data augmentation, and data scaling. Experimental comparisions show that (1) while locality is more important than positional equivariance in creating a diffusion planner capable of composition, both are crucial (2) enabling these properties through relatively simple architecture choices can be competitive with more computationally expensive methods such as replanning or scaling data, and (3) simple inpainting-based guidance can guide architecturally compositional models to enable generalization in goal-conditioned settings.

arxiv情報

著者 Quentin Clark,Florian Shkurti
発行日 2025-05-23 16:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | What Do You Need for Diverse Trajectory Stitching in Diffusion Planning? はコメントを受け付けていません

Early-Exit Graph Neural Networks

要約

早期拡張メカニズムにより、深いニューラルネットワークは、分類の信頼が十分に高くなるとすぐに推論を停止し、自信のために適応的に取引され、それにより、より硬いものの完全な精度を保持しながら、簡単な入力の遅延とエネルギーを削減できます。
同様に、グラフ構造データのモデルであるグラフニューラルネットワーク(GNNS)に早期出口メカニズムを追加すると、より硬い複雑なグラフで完全な精度を維持して複雑な関係をキャプチャする一方で、単純なグラフで信頼性のために動的な取引深さを可能にします。
早期の出口はさまざまな深い学習ドメインで効果的であることが証明されていますが、滑らかで過剰なアーキテクチャやスケッシングに抵抗しながら深いアーキテクチャを必要とするシナリオ内のGNN内の可能性はほとんど未踏のままです。
対称抗対称グラフニューラルネットワーク(SAS-GNN)を最初に導入することにより、その可能性を解き放ちます。その対称性ベースの誘導バイアスは、これらの問題を緩和し、GNNの早期出口を可能にする安定した中間表現を生成します。
このバックボーンに基づいて、初期排除グラフニューラルネットワーク(EEGNNS)を提示します。これにより、各ノードまたはグラフ全体に基づいて伝播の流行の終了を可能にする信頼性の高い出口ヘッドが追加されます。
実験では、EEGNNSが深さが増加するにつれて堅牢なパフォーマンスを維持し、異種および長距離ベンチマークの競争精度を実現し、注意ベースと非同期のメッセージパスモデルに一致しながら、計算とレイテンシを大幅に減らします。
実験を再現するためにコードをリリースする予定です。

要約(オリジナル)

Early-exit mechanisms allow deep neural networks to halt inference as soon as classification confidence is high enough, adaptively trading depth for confidence, and thereby cutting latency and energy on easy inputs while retaining full-depth accuracy for harder ones. Similarly, adding early exit mechanisms to Graph Neural Networks (GNNs), the go-to models for graph-structured data, allows for dynamic trading depth for confidence on simple graphs while maintaining full-depth accuracy on harder and more complex graphs to capture intricate relationships. Although early exits have proven effective across various deep learning domains, their potential within GNNs in scenarios that require deep architectures while resisting over-smoothing and over-squashing remains largely unexplored. We unlock that potential by first introducing Symmetric-Anti-Symmetric Graph Neural Networks (SAS-GNN), whose symmetry-based inductive biases mitigate these issues and yield stable intermediate representations that can be useful to allow early exiting in GNNs. Building on this backbone, we present Early-Exit Graph Neural Networks (EEGNNs), which append confidence-aware exit heads that allow on-the-fly termination of propagation based on each node or the entire graph. Experiments show that EEGNNs preserve robust performance as depth grows and deliver competitive accuracy on heterophilic and long-range benchmarks, matching attention-based and asynchronous message-passing models while substantially reducing computation and latency. We plan to release the code to reproduce our experiments.

arxiv情報

著者 Andrea Giuseppe Di Francesco,Maria Sofia Bucarelli,Franco Maria Nardini,Raffaele Perego,Nicola Tonellotto,Fabrizio Silvestri
発行日 2025-05-23 16:45:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Early-Exit Graph Neural Networks はコメントを受け付けていません