Provable Reinforcement Learning from Human Feedback with an Unknown Link Function

要約

RL問題の価値関数から人間の選好がどのように生成されるかを特徴付けるリンク関数は、RLHFアルゴリズムを設計する上で極めて重要な要素である。DPOやPPOのような経験的研究における最先端のものを含む、ほとんど全てのRLHFアルゴリズムは、リンク関数がエージェントに既知であると仮定している(例えば、Bradley-Terryモデルに従ったロジスティック関数)が、人間の嗜好の複雑な性質を考慮すると、これは間違いなく非現実的である。リンク関数の誤仕様を避けるために、本論文では未知のリンク関数を持つ一般的なRLHF問題を研究する。我々は新しいゼロ次政策最適化法に基づくZSPOと呼ばれる新しい政策最適化アルゴリズムを提案する。ここで重要なのは、人間の嗜好を用いて、真の政策勾配方向と正の相関を持つパラメータ更新方向を構築することである。ZSPOは、値関数の差から勾配を推定する代わりに、値関数の差の符号を推定することでこれを実現するため、リンク関数を知る必要がない。穏やかな条件下では、ZSPOは政策の反復回数と反復ごとの軌道数に依存する多項式収束率で定常政策に収束する。数値結果はまた、リンク関数ミスマッチの下でのZSPOの優位性を示す。

要約(オリジナル)

Link functions, which characterize how human preferences are generated from the value function of an RL problem, are a crucial component in designing RLHF algorithms. Almost all RLHF algorithms, including state-of-the-art ones in empirical studies such as DPO and PPO, assume the link function is known to the agent (e.g., a logistic function according to the Bradley-Terry model), which is arguably unrealistic considering the complex nature of human preferences. To avoid link function mis-specification, this paper studies general RLHF problems with unknown link functions. We propose a novel policy optimization algorithm called ZSPO based on a new zeroth-order policy optimization method, where the key is to use human preference to construct a parameter update direction that is positively correlated with the true policy gradient direction. ZSPO achieves it by estimating the sign of the value function difference instead of estimating the gradient from the value function difference, so it does not require knowing the link function. Under mild conditions, ZSPO converges to a stationary policy with a polynomial convergence rate depending on the number of policy iterations and trajectories per iteration. Numerical results also show the superiority of ZSPO under link function mismatch.

arxiv情報

著者 Qining Zhang,Lei Ying
発行日 2025-06-03 16:42:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML | Provable Reinforcement Learning from Human Feedback with an Unknown Link Function はコメントを受け付けていません

Causal Explainability of Machine Learning in Heart Failure Prediction from Electronic Health Records

要約

病気の予後における臨床変数の重要性は、統計的相関や機械学習(ML)を用いて説明される。しかし、これらの変数の予測的重要性は、疾患との因果関係を表していない可能性がある。本論文では、心不全(HF)患者コホートからの臨床変数を用いて、統計的およびMLの文脈で得られた重要な変数の因果関係説明可能性を調査する。一般的な因果関係発見手法では、回帰モデリングという性質上、原因変数と結果変数が数値的かつ連続的であることを厳密に仮定している。本論文では、因果構造発見(CSD)を可能にし、バイナリ疾患結果に対する混合型(カテゴリー、数値、バイナリ)臨床変数の因果強度をスコア化する新しい計算フレームワークを提案する。HF分類において、3種類の特徴(相関特徴、ML予測に重要な特徴、因果的特徴)の重要度順位間の関連を調査する。その結果、非線形な因果関係に対するCSDモデリングは、線形なものよりも有意義であることが示された。非線形分類器(例えば、勾配ブースティング木)から得られる特徴の重要度は、原因変数と結果変数を区別することなく、変数の因果強度と強く相関する。相関のある変数はHFの原因となりうるが、効果変数として識別されることはほとんどない。これらの結果は、MLベースの予測モデリングに重要な変数の因果説明を追加するために使用できる。

要約(オリジナル)

The importance of clinical variables in the prognosis of the disease is explained using statistical correlation or machine learning (ML). However, the predictive importance of these variables may not represent their causal relationships with diseases. This paper uses clinical variables from a heart failure (HF) patient cohort to investigate the causal explainability of important variables obtained in statistical and ML contexts. Due to inherent regression modeling, popular causal discovery methods strictly assume that the cause and effect variables are numerical and continuous. This paper proposes a new computational framework to enable causal structure discovery (CSD) and score the causal strength of mixed-type (categorical, numerical, binary) clinical variables for binary disease outcomes. In HF classification, we investigate the association between the importance rank order of three feature types: correlated features, features important for ML predictions, and causal features. Our results demonstrate that CSD modeling for nonlinear causal relationships is more meaningful than its linear counterparts. Feature importance obtained from nonlinear classifiers (e.g., gradient-boosting trees) strongly correlates with the causal strength of variables without differentiating cause and effect variables. Correlated variables can be causal for HF, but they are rarely identified as effect variables. These results can be used to add the causal explanation of variables important for ML-based prediction modeling.

arxiv情報

著者 Yina Hou,Shourav B. Rabbani,Liang Hong,Norou Diawara,Manar D. Samad
発行日 2025-06-03 16:46:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CY, cs.LG, stat.ML | Causal Explainability of Machine Learning in Heart Failure Prediction from Electronic Health Records はコメントを受け付けていません

Structured and Balanced Multi-Component and Multi-Layer Neural Networks

要約

本研究では、複雑な特徴を持つ関数を、自由度と計算コストの両面から正確かつ効率的に近似するために、バランスの取れた多成分・多層ニューラルネットワーク(MMNN)構造を提案する。主なアイデアは多成分アプローチから着想を得ており、各成分は単層ネットワークで効果的に近似でき、ターゲット関数の複雑さを捉えるために多層分解戦略と組み合わされる。MMNNは、バランスの取れた多成分構造を導入することで、完全連結ニューラルネットワーク(FCNN)や多層パーセプトロン(MLP)を単純に修正したものと見なすことができるが、FCNNやMLPと比較して、学習パラメータの大幅な削減、より効率的な学習プロセス、精度の向上を達成している。広範な数値実験により、高振動関数の近似におけるMMNNの有効性と、局所的な特徴に自動的に適応する能力が実証されている。

要約(オリジナル)

In this work, we propose a balanced multi-component and multi-layer neural network (MMNN) structure to accurately and efficiently approximate functions with complex features, in terms of both degrees of freedom and computational cost. The main idea is inspired by a multi-component approach, in which each component can be effectively approximated by a single-layer network, combined with a multi-layer decomposition strategy to capture the complexity of the target function. Although MMNNs can be viewed as a simple modification of fully connected neural networks (FCNNs) or multi-layer perceptrons (MLPs) by introducing balanced multi-component structures, they achieve a significant reduction in training parameters, a much more efficient training process, and improved accuracy compared to FCNNs or MLPs. Extensive numerical experiments demonstrate the effectiveness of MMNNs in approximating highly oscillatory functions and their ability to automatically adapt to localized features.

arxiv情報

著者 Shijun Zhang,Hongkai Zhao,Yimin Zhong,Haomin Zhou
発行日 2025-06-03 16:46:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NA, cs.NE, math.NA, stat.ML | Structured and Balanced Multi-Component and Multi-Layer Neural Networks はコメントを受け付けていません

GL-LowPopArt: A Nearly Instance-Wise Minimax Estimator for Generalized Low-Rank Trace Regression

要約

我々は、一般化された低ランクのトレース回帰のための新しいCatoniスタイルの推定器である`GL-LowPopArt`を発表する。LowPopArt` (Jang et al., 2024)に基づき、核ノルム正則化の後に行列Catoni推定を行う2段階のアプローチを採用する。我々は、既存の保証(Fan et al., 2019; Kang et al., 2022)を上回る最先端の推定誤差境界を確立し、新しい実験設計目的$mathrm{GL}( \pi)$ を明らかにする。重要な技術的課題は、非線形逆リンク関数からのバイアスを制御することであり、我々は2段階のアプローチによってこれに対処する。我々は、`GL-LowPopArt`がインスタンス毎の最適性を基底真理ヘシアンの条件数まで享受することを示し、*局所的*な最小下界を証明する。応用例としては、`GL-LowPopArt`が最先端のフロベニウス誤差保証を達成する一般化線形行列補完や、一般的な選好学習(Zhang et al., 2024)に触発された新しい設定である**双線形決闘山賊**がある。GL-LowPopArt`に基づくexplore-then-commitアルゴリズムの解析により、ベクトル化よりも改善されたボルダ後悔限界とともに、新しい潜在的に興味深い問題依存量が明らかになった(Wu et al., 2024)。

要約(オリジナル)

We present `GL-LowPopArt`, a novel Catoni-style estimator for generalized low-rank trace regression. Building on `LowPopArt` (Jang et al., 2024), it employs a two-stage approach: nuclear norm regularization followed by matrix Catoni estimation. We establish state-of-the-art estimation error bounds, surpassing existing guarantees (Fan et al., 2019; Kang et al., 2022), and reveal a novel experimental design objective, $\mathrm{GL}(\pi)$. The key technical challenge is controlling bias from the nonlinear inverse link function, which we address by our two-stage approach. We prove a *local* minimax lower bound, showing that our `GL-LowPopArt` enjoys instance-wise optimality up to the condition number of the ground-truth Hessian. Applications include generalized linear matrix completion, where `GL-LowPopArt` achieves a state-of-the-art Frobenius error guarantee, and **bilinear dueling bandits**, a novel setting inspired by general preference learning (Zhang et al., 2024). Our analysis of a `GL-LowPopArt`-based explore-then-commit algorithm reveals a new, potentially interesting problem-dependent quantity, along with improved Borda regret bound than vectorization (Wu et al., 2024).

arxiv情報

著者 Junghyun Lee,Kyoungseok Jang,Kwang-Sung Jun,Milan Vojnović,Se-Young Yun
発行日 2025-06-03 16:52:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML | GL-LowPopArt: A Nearly Instance-Wise Minimax Estimator for Generalized Low-Rank Trace Regression はコメントを受け付けていません

Agnostic Learning under Targeted Poisoning: Optimal Rates and the Role of Randomness

要約

我々は、特定のテストポイントで失敗を引き起こすことを目的として、訓練例の$θeta$分数を破損することができる敵の存在下での学習問題を研究する。実現可能な設定において、先行研究は、このようなインスタンス標的ポイズニング攻撃の下での最適誤差が$Theta(deta)$のようにスケールすることを確立した、ここで$d$は仮説クラスのVC次元である arXiv:2210.02713.本研究では、不可知論的設定における対応する問題を解決する。最適な過剰誤差は$tilde{θ}( \sqrt{deta})$ であることを示し、Hannekeらが残した主な未解決問題の1つに答える:Hannekeらは、少量のポイズニングの下でも、決定論的学習者が1に近い誤差を被ることを強制できることを示した。おそらく驚くべきことに、学習者のランダムビットが敵に完全に見えている場合でも、我々の上限は有効である。もう一つの方向として、我々の下界は標準的なPACスタイルの下界よりも強い。各サンプルサイズに対して個別にハード分布を調整する代わりに、我々は敵対者が$Omega(˶‾᷄‾᷅˵)$の過剰誤差を無限に強制できる単一の固定分布を示す。

要約(オリジナル)

We study the problem of learning in the presence of an adversary that can corrupt an $\eta$ fraction of the training examples with the goal of causing failure on a specific test point. In the realizable setting, prior work established that the optimal error under such instance-targeted poisoning attacks scales as $\Theta(d\eta)$, where $d$ is the VC dimension of the hypothesis class arXiv:2210.02713. In this work, we resolve the corresponding question in the agnostic setting. We show that the optimal excess error is $\tilde{\Theta}(\sqrt{d\eta})$, answering one of the main open problems left by Hanneke et al. To achieve this rate, it is necessary to use randomized learners: Hanneke et al. showed that deterministic learners can be forced to suffer error close to 1, even under small amounts of poisoning. Perhaps surprisingly, our upper bound remains valid even when the learner’s random bits are fully visible to the adversary . In the other direction, our lower bound is stronger than standard PAC-style bounds: instead of tailoring a hard distribution separately for each sample size, we exhibit a single fixed distribution under which the adversary can enforce an excess error of $\Omega(\sqrt{d\eta})$ infinitely often.

arxiv情報

著者 Bogdan Chornomaz,Yonatan Koren,Shay Moran,Tom Waknine
発行日 2025-06-03 16:53:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68Q32, cs.LG, I.2.6, math.PR | Agnostic Learning under Targeted Poisoning: Optimal Rates and the Role of Randomness はコメントを受け付けていません

Spectral Clustering for Directed Graphs via Likelihood Estimation on Stochastic Block Models

要約

グラフクラスタリングは、教師なし学習における基本的なタスクであり、実世界で広く応用されている。無向グラフに対するスペクトルクラスタリング法はよく確立されており、最小カット最適化コンセンサスによって導かれるが、有向グラフへの拡張は、辺の方向によってもたらされる追加の複雑性のため、比較的未解明である。本論文では、有向グラフのスペクトルクラスタリング・アルゴリズムの開発の指針として、確率ブロックモデルの統計的推論を活用する。具体的には、広く用いられている有向確率ブロックモデルの下での最尤推定を研究し、基礎となるコミュニティ構造と整合する大域的目的関数を導出する。さらに、そのスペクトル緩和の誤クラスタリング誤差の理論的上限を確立し、この緩和に基づいて、有向グラフに対する新しい自己適応的なスペクトルクラスタリング手法を導入する。合成データセットと実世界データセットを用いた広範な実験により、既存のベースラインに対する性能の大幅な向上を実証する。

要約(オリジナル)

Graph clustering is a fundamental task in unsupervised learning with broad real-world applications. While spectral clustering methods for undirected graphs are well-established and guided by a minimum cut optimization consensus, their extension to directed graphs remains relatively underexplored due to the additional complexity introduced by edge directions. In this paper, we leverage statistical inference on stochastic block models to guide the development of a spectral clustering algorithm for directed graphs. Specifically, we study the maximum likelihood estimation under a widely used directed stochastic block model, and derive a global objective function that aligns with the underlying community structure. We further establish a theoretical upper bound on the misclustering error of its spectral relaxation, and based on this relaxation, introduce a novel, self-adaptive spectral clustering method for directed graphs. Extensive experiments on synthetic and real-world datasets demonstrate significant performance gains over existing baselines.

arxiv情報

著者 Ning Zhang,Xiaowen Dong,Mihai Cucuringu
発行日 2025-06-03 17:00:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.SI, math.ST, stat.ML, stat.TH | Spectral Clustering for Directed Graphs via Likelihood Estimation on Stochastic Block Models はコメントを受け付けていません

Relative Overfitting and Accept-Reject Framework

要約

現在、大規模言語モデル(LLM)のスケーリング則は、課題とボトルネックに直面している。本稿では、限界収穫逓増下でのS/N比の変化に起因するノイズ効果が、これらの問題の根本原因であると仮定する。このノイズを制御するために、「相対的オーバーフィッティング」という概念を導入し、性能的に有利なモデルと不利なモデルの違いを調査した。両者の相互補完的な強みに基づき、モデル統合後の性能変化のパターンを解明するために、Accept-Reject(AR)という応用フレームワークと、このフレームワーク内で動作する関連AR法則を提案した。自然言語処理(NLP)では、LLMと小型言語モデル(SLM)を議論の媒体として使用する。このフレームワークにより、SLMは、直感的に予想される潜在的な負の影響ではなく、LLMの決定出力に普遍的な正の影響を及ぼすことが可能になる。我々は、基本的な言語モデリング、ロングコンテクスト課題、被験者試験、質問応答(QA)ベンチマークを含む複数のデータセットにおいて、主流のアーキテクチャに基づく自作モデルと、事前に訓練された主流のモデルを用いて、我々のアプローチを検証した。その結果、我々のフレームワークにより、LLMのパラメータを増加させるのに比べ、多くのシナリオにおいて、大幅に低いパラメータと計算コストで、より優れた性能向上を達成できることが実証された。これらの改善は普遍的で安定的かつ効果的である。さらに、コンピュータビジョン(CV)や科学のためのAIなど、他の機械学習領域における「相対的オーバーフィット」とARフレームワークの可能性を探る。我々は、提案するアプローチが、既存のボトルネックを克服するスケール法の一助となることを願っている。

要約(オリジナル)

Currently, the scaling law of Large Language Models (LLMs) faces challenges and bottlenecks. This paper posits that noise effects, stemming from changes in the signal-to-noise ratio under diminishing marginal returns, are the root cause of these issues. To control this noise, we investigated the differences between models with performance advantages and disadvantages, introducing the concept of ‘relative overfitting.’ Based on their complementary strengths, we have proposed an application framework, Accept-Reject (AR), and the associated AR Law, which operates within this framework to elucidate the patterns of performance changes after model integration. In Natural Language Processing (NLP), we use LLMs and Small Language Models (SLMs) as the medium for discussion. This framework enables SLMs to exert a universal positive influence on LLM decision outputs, rather than the intuitively expected potential negative influence. We validated our approach using self-built models based on mainstream architectures and pre-trained mainstream models across multiple datasets, including basic language modeling, long-context tasks, subject examination, and question-answering (QA) benchmarks. The results demonstrate that through our framework, compared to increasing the LLM’s parameters, we can achieve better performance improvements with significantly lower parameter and computational costs in many scenarios. These improvements are universal, stable, and effective. Furthermore, we explore the potential of ‘relative overfitting’ and the AR framework in other machine learning domains, such as computer vision (CV) and AI for science. We hope the proposed approach can help scale laws overcome existing bottlenecks.

arxiv情報

著者 Yanxin Liu,Yunqi Zhang
発行日 2025-06-03 17:02:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Relative Overfitting and Accept-Reject Framework はコメントを受け付けていません

Non-Asymptotic Length Generalization

要約

長さの汎化とは、学習アルゴリズムが、学習セットの入力よりも長い入力に対して汎化する仮説を学習する能力のことである。本論文では、理想化された設定において、様々なクラスの関数に対する長さ汎化の証明可能な保証を提供する。まず、非漸近的長さ汎化の枠組みを定式化し、長さ汎化を保証する最小入力長の計算可能な上界を、ある与えられた複雑さ尺度の下での基底真理関数の複雑さの関数として求める。この長さ汎化を保証する最小入力長を、長さ複雑度と呼ぶ。最小複雑度補間学習アルゴリズムが最適な長さの複雑度を達成することを示す。さらに、ある関数クラスが非漸近的な長さの汎化を認めるかどうかは、その言語同値問題の決定可能性と等価であることを示し、これは文脈自由文法の長さの複雑さには計算可能な上限がないことを意味する。一方、決定論的有限オートマトンの長さの複雑さは$2n – 2$である。我々の主な結果は、C-RASP(Yang & Chiang, 2024)と呼ばれる変換器関連の関数クラスの部分集合の長さの複雑さの上界である。基底真理関数の精度が$T$のとき、1層C-RASP関数の長さの複雑さは$O(T^2)$であること、基底真理関数の精度が$T$で頭数が$K$のとき、2層C-RASP関数の長さの複雑さは$O(T^{O(K)})$であることを示す。

要約(オリジナル)

Length generalization is the ability of a learning algorithm to learn a hypothesis which generalizes to longer inputs than the inputs in the training set. In this paper, we provide provable guarantees of length generalization for various classes of functions in an idealized setting. First, we formalize the framework of non-asymptotic length generalization, which requires a computable upper bound for the minimum input length that guarantees length generalization, as a function of the complexity of ground-truth function under some given complexity measure. We refer to this minimum input length to length generalize as length complexity. We show the Minimum-Complexity Interpolator learning algorithm achieves optimal length complexity. We further show that whether a function class admits non-asymptotic length generalization is equivalent to the decidability of its language equivalence problem, which implies that there is no computable upper bound for the length complexity of Context-Free Grammars. On the positive side, we show that the length complexity of Deterministic Finite Automata is $2n – 2$ where $n$ is the number of states of the ground-truth automaton. Our main results are upper bounds of length complexity for a subset of a transformer-related function class called C-RASP (Yang & Chiang, 2024). We show that the length complexity of 1-layer C-RASP functions is $O(T^2)$ when the ground-truth function has precision $T$, and that the length complexity of 2-layer C-RASP functions is $O(T^{O(K)})$ when the ground-truth function has precision $T$ and $K$ heads.

arxiv情報

著者 Thomas Chen,Tengyu Ma,Zhiyuan Li
発行日 2025-06-03 17:09:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Non-Asymptotic Length Generalization はコメントを受け付けていません

Shallow ReLU neural networks and finite elements

要約

我々は、凸ポリトープメッシュ上の(連続または不連続な)区分線形関数は、弱い意味で2つの隠れ層ReLUニューラルネットワークで表現できることを指摘する。さらに、弱い表現に必要な2つの隠れ層のニューロン数は、このメッシュに含まれるポリトープと超平面の数に基づいて正確に与えられる。この結果は、当然ながら定数と線形有限要素関数に対して成立する。このような弱い表現は、浅いReLUニューラルネットワークと有限要素関数の間の橋渡しを確立し、有限要素関数を介した$L^p$ノルムでのReLUニューラルネットワークの近似能力を解析する視点につながる。さらに、最近のテンソルニューラルネットワークによるテンソル有限要素関数の厳密表現について議論する。

要約(オリジナル)

We point out that (continuous or discontinuous) piecewise linear functions on a convex polytope mesh can be represented by two-hidden-layer ReLU neural networks in a weak sense. In addition, the numbers of neurons of the two hidden layers required to weakly represent are accurately given based on the numbers of polytopes and hyperplanes involved in this mesh. The results naturally hold for constant and linear finite element functions. Such weak representation establishes a bridge between shallow ReLU neural networks and finite element functions, and leads to a perspective for analyzing approximation capability of ReLU neural networks in $L^p$ norm via finite element functions. Moreover, we discuss the strict representation for tensor finite element functions via the recent tensor neural networks.

arxiv情報

著者 Pengzhan Jin
発行日 2025-06-03 17:10:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NA, math.NA | Shallow ReLU neural networks and finite elements はコメントを受け付けていません

On the Stability of Graph Convolutional Neural Networks: A Probabilistic Perspective

要約

グラフ畳み込みニューラルネットワーク(GCNN)は、グラフ構造のデータを解析するための強力なツールとして登場し、様々なアプリケーションにおいて目覚ましい成果を上げている。しかし、これらのモデルの安定性、すなわちグラフ構造の小さな変化に対する感度の理論的理解は、かなり限定的な設定にとどまっており、ロバストで信頼性の高いモデルの開発と実践への展開を妨げている。このギャップを埋めるために、我々はグラフトポロジーの摂動がGCNNの出力にどのような影響を与えるかを研究し、モデルの安定性を分析するための新しい定式化を提案する。ワーストケースの摂動のみに焦点を当てた先行研究とは異なり、我々の分布を考慮した定式化は、幅広い入力データにわたる出力摂動を特徴付ける。このようにして、我々の枠組みは、ノードデータの統計的特性とグラフトポロジーの摂動との間の相互作用に関する確率論的な視点を初めて可能にした。我々の理論的知見を検証するために広範な実験を行い、表現の安定性と下流タスクに対する敵対的攻撃の両方の観点から、既存のベースラインに対する利点を実証する。我々の結果は、提案した定式化の実用的な意義を実証し、安定性解析にデータ分布を組み込むことの重要性を強調するものである。

要約(オリジナル)

Graph convolutional neural networks (GCNNs) have emerged as powerful tools for analyzing graph-structured data, achieving remarkable success across diverse applications. However, the theoretical understanding of the stability of these models, i.e., their sensitivity to small changes in the graph structure, remains in rather limited settings, hampering the development and deployment of robust and trustworthy models in practice. To fill this gap, we study how perturbations in the graph topology affect GCNN outputs and propose a novel formulation for analyzing model stability. Unlike prior studies that focus only on worst-case perturbations, our distribution-aware formulation characterizes output perturbations across a broad range of input data. This way, our framework enables, for the first time, a probabilistic perspective on the interplay between the statistical properties of the node data and perturbations in the graph topology. We conduct extensive experiments to validate our theoretical findings and demonstrate their benefits over existing baselines, in terms of both representation stability and adversarial attacks on downstream tasks. Our results demonstrate the practical significance of the proposed formulation and highlight the importance of incorporating data distribution into stability analysis.

arxiv情報

著者 Ning Zhang,Henry Kenlay,Li Zhang,Mihai Cucuringu,Xiaowen Dong
発行日 2025-06-03 17:15:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, eess.SP, stat.ML | On the Stability of Graph Convolutional Neural Networks: A Probabilistic Perspective はコメントを受け付けていません