Geometric Hyena Networks for Large-scale Equivariant Learning

要約

生物学的、化学的、および物理的なシステムをモデル化する際には、等気経過度を維持しながらグローバルな幾何学的コンテキストを処理することが重要です。
しかし、これは大規模な等聴力とグローバルなコンテキストの計算的要求のために困難です。
同等の自己関節などの標準的な方法は、二次の複雑さに悩まされますが、距離ベースのメッセージなどのローカルな方法は、グローバル情報を犠牲にします。
状態空間と長い詐欺的なモデルの最近の成功に触発され、幾何学的システムの最初の同等の長い継続モデルである幾何学的なハイエナを紹介します。
幾何学的なハイエナは、回転と翻訳に等しい積極性を維持しながら、地下幾何学的なコンテキストを亜二量体の複雑さでキャプチャします。
幾何学的なハイエナは、大規模なRNA分子と完全なタンパク質分子ダイナミクスの全原子特性予測で評価され、既存の等量モデルを上回り、記憶を大幅に少なくし、その等しい自己触媒を計算します。
特に、私たちのモデルは、等量変圧器よりも20倍速い30Kトークンの幾何学的コンテキストを処理し、同じ予算内で72倍長いコンテキストを許可します。

要約(オリジナル)

Processing global geometric context while preserving equivariance is crucial when modeling biological, chemical, and physical systems. Yet, this is challenging due to the computational demands of equivariance and global context at scale. Standard methods such as equivariant self-attention suffer from quadratic complexity, while local methods such as distance-based message passing sacrifice global information. Inspired by the recent success of state-space and long-convolutional models, we introduce Geometric Hyena, the first equivariant long-convolutional model for geometric systems. Geometric Hyena captures global geometric context at sub-quadratic complexity while maintaining equivariance to rotations and translations. Evaluated on all-atom property prediction of large RNA molecules and full protein molecular dynamics, Geometric Hyena outperforms existing equivariant models while requiring significantly less memory and compute that equivariant self-attention. Notably, our model processes the geometric context of 30k tokens 20x faster than the equivariant transformer and allows 72x longer context within the same budget.

arxiv情報

著者 Artem Moskalev,Mangal Prakash,Junjie Xu,Tianyu Cui,Rui Liao,Tommaso Mansi
発行日 2025-05-28 16:38:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Geometric Hyena Networks for Large-scale Equivariant Learning はコメントを受け付けていません

FNOPE: Simulation-based inference on function spaces with Fourier Neural Operators

要約

シミュレーションベースの推論(SBI)は、科学シミュレータでベイジアン推論を実行するための確立されたアプローチです。
SBIはこれまでのところ、低次元パラメトリックモデルで最適です。
ただし、気候や地球科学などの時空間プロセスをモデル化する分野で頻繁に発生する機能値パラメーターを推測することは困難です。
ここでは、フーリエニューラルオペレーター(FNO)アーキテクチャを使用して、フローマッチング目標を使用して、効率的な後部推定のアプローチを紹介します。
私たちのアプローチであるFNOPEは、最先端の方法のシミュレーション予算の一部で機能値パラメーターの推論を実行できることを示しています。
さらに、FNOPEは、ドメインの任意の離散化での事後評価、およびベクトル値パラメーターの同時推定をサポートしています。
いくつかのベンチマークタスクでのアプローチの有効性と、氷河学からの挑戦的な空間推論タスクを実証します。
FNOPEは、機能値パラメーターの推論を可能にすることにより、SBIメソッドの適用性を新しい科学ドメインに拡張します。

要約(オリジナル)

Simulation-based inference (SBI) is an established approach for performing Bayesian inference on scientific simulators. SBI so far works best on low-dimensional parametric models. However, it is difficult to infer function-valued parameters, which frequently occur in disciplines that model spatiotemporal processes such as the climate and earth sciences. Here, we introduce an approach for efficient posterior estimation, using a Fourier Neural Operator (FNO) architecture with a flow matching objective. We show that our approach, FNOPE, can perform inference of function-valued parameters at a fraction of the simulation budget of state of the art methods. In addition, FNOPE supports posterior evaluation at arbitrary discretizations of the domain, as well as simultaneous estimation of vector-valued parameters. We demonstrate the effectiveness of our approach on several benchmark tasks and a challenging spatial inference task from glaciology. FNOPE extends the applicability of SBI methods to new scientific domains by enabling the inference of function-valued parameters.

arxiv情報

著者 Guy Moss,Leah Sophie Muhle,Reinhard Drews,Jakob H. Macke,Cornelius Schröder
発行日 2025-05-28 16:46:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | FNOPE: Simulation-based inference on function spaces with Fourier Neural Operators はコメントを受け付けていません

Benignity of loss landscape with weight decay requires both large overparametrization and initialization

要約

体重減衰下でのニューラルネットワークの最適化は、理論的な観点からはあまり理解されていません。
体重減衰は最新のトレーニング手順では標準的な慣行ですが、ほとんどの理論的分析は、正規化されていない設定に焦点を当てています。
この作業では、2層のReluネットワークの$ \ Ell_2 $ $-REGURTINEDトレーニング損失の損失状況を調査します。
ランドスケープは、特に$ m \ gtrsim \ min(n^d、2^n)$を満たしている場合、特にネットワーク幅$ mが満たされている場合、大規模なオーバーパラム化下で良性になることを示します。
より正確には、このレジームでは、ほとんどすべての一定の活性化領域には、グローバルな最小値が含まれており、局所的な最小値はありません。
さらに、このレベルのオーバーパラメーター化は十分であるだけでなく、直交データの例を介して必要であることを示します。
最後に、このような損失の景観の結果は、主に大きな初期化体制に関連性を保持していることを実証します。
対照的に、機能学習体制に対応する小さな初期化の場合、最適化は、景観のグローバルな良性にもかかわらず、依然として偽の局所ミニマに収束する可能性があります。

要約(オリジナル)

The optimization of neural networks under weight decay remains poorly understood from a theoretical standpoint. While weight decay is standard practice in modern training procedures, most theoretical analyses focus on unregularized settings. In this work, we investigate the loss landscape of the $\ell_2$-regularized training loss for two-layer ReLU networks. We show that the landscape becomes benign — i.e., free of spurious local minima — under large overparametrization, specifically when the network width $m$ satisfies $m \gtrsim \min(n^d, 2^n)$, where $n$ is the number of data points and $d$ the input dimension. More precisely in this regime, almost all constant activation regions contain a global minimum and no spurious local minima. We further show that this level of overparametrization is not only sufficient but also necessary via the example of orthogonal data. Finally, we demonstrate that such loss landscape results primarily hold relevance in the large initialization regime. In contrast, for small initializations — corresponding to the feature learning regime — optimization can still converge to spurious local minima, despite the global benignity of the landscape.

arxiv情報

著者 Etienne Boursier,Matthew Bowditch,Matthias Englert,Ranko Lazic
発行日 2025-05-28 16:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Benignity of loss landscape with weight decay requires both large overparametrization and initialization はコメントを受け付けていません

Solving Inverse Problems with Deep Linear Neural Networks: Global Convergence Guarantees for Gradient Descent with Weight Decay

要約

機械学習方法は一般に逆の問題を解決するために使用されます。ここでは、既知の取得手順を介して生成された少数の測定から未知の信号を推定する必要があります。
特に、ニューラルネットワークは経験的に十分に機能しますが、理論的保証は限られています。
この作業では、いくつかの可能なソリューションマッピングを認める未定で決定された線形逆問題を研究します。
ソリューションマッピングの一意性を確立する標準的な治療法(たとえば、圧縮センシングなど)は、ソース信号の潜在的な低次元構造の知識を引き受けることです。
次の質問をします。深いニューラルネットワークは、体重減衰の正則化を伴う勾配降下によって訓練されたときに、この低次元構造に適応しますか?
この方法で訓練された軽度のオーバーパラメーター化された深い線形ネットワークは、潜在的なサブスペース構造を暗黙的にエンコードしながら、逆問題を正確に解決する近似ソリューションに収束することを証明します。
私たちの知る限り、これは、体重減衰で訓練された深い線形ネットワークが、実際の段階的および重量初期化スキームの下でデータの潜在サブスペース構造に自動的に適応することを厳密に示した最初の結果です。
私たちの仕事は、正則化とオーバーパラメーター化が一般化を改善し、オーバーパラメーター化がトレーニング中の収束も加速することを強調しています。

要約(オリジナル)

Machine learning methods are commonly used to solve inverse problems, wherein an unknown signal must be estimated from few measurements generated via a known acquisition procedure. In particular, neural networks perform well empirically but have limited theoretical guarantees. In this work, we study an underdetermined linear inverse problem that admits several possible solution mappings. A standard remedy (e.g., in compressed sensing) establishing uniqueness of the solution mapping is to assume knowledge of latent low-dimensional structure in the source signal. We ask the following question: do deep neural networks adapt to this low-dimensional structure when trained by gradient descent with weight decay regularization? We prove that mildly overparameterized deep linear networks trained in this manner converge to an approximate solution that accurately solves the inverse problem while implicitly encoding latent subspace structure. To our knowledge, this is the first result to rigorously show that deep linear networks trained with weight decay automatically adapt to latent subspace structure in the data under practical stepsize and weight initialization schemes. Our work highlights that regularization and overparameterization improve generalization, while overparameterization also accelerates convergence during training.

arxiv情報

著者 Hannah Laus,Suzanna Parkinson,Vasileios Charisopoulos,Felix Krahmer,Rebecca Willett
発行日 2025-05-28 17:25:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Solving Inverse Problems with Deep Linear Neural Networks: Global Convergence Guarantees for Gradient Descent with Weight Decay はコメントを受け付けていません

Fully Heteroscedastic Count Regression with Deep Double Poisson Networks

要約

正確で入力条件の不確実性表現が可能なニューラルネットワークは、実際のAIシステムに不可欠です。
ガウスネットワークの深いアンサンブルは、無制限のヘテロ脱脱流分散を介して柔軟に協調的な不確実性を表現する能力により、連続回帰に非常に効果的であることが証明されており、これにより、正確な認識論的不確実性の推定が可能になります。
ただし、多くの重要なアプリケーションにもかかわらず、カウント回帰のための類似のアプローチは存在しません。
このギャップに対処するために、ダブルポアソン分布のパラメーターを出力する新しいニューラル離散カウント回帰モデルであるディープダブルポアソンネットワーク(DDPN)を提案し、カウントデータの任意の高または低予測アレアティックの不確実性を可能にし、認識論的不確実性推定を改善します。
DDPNは、学習可能な損失の減衰を介してヘテロスケジックガウスモデルと同様の堅牢な回帰特性を示すことを正式化し、証明し、この動作を制御するための単純な損失の変更を導入します。
多様なデータセットでの実験は、DDPNが現在のベースラインを精度、キャリブレーション、および分散排出検出の検出よりも優れており、深いカウント回帰の新しい最先端の最先端を確立することを示しています。

要約(オリジナル)

Neural networks capable of accurate, input-conditional uncertainty representation are essential for real-world AI systems. Deep ensembles of Gaussian networks have proven highly effective for continuous regression due to their ability to flexibly represent aleatoric uncertainty via unrestricted heteroscedastic variance, which in turn enables accurate epistemic uncertainty estimation. However, no analogous approach exists for count regression, despite many important applications. To address this gap, we propose the Deep Double Poisson Network (DDPN), a novel neural discrete count regression model that outputs the parameters of the Double Poisson distribution, enabling arbitrarily high or low predictive aleatoric uncertainty for count data and improving epistemic uncertainty estimation when ensembled. We formalize and prove that DDPN exhibits robust regression properties similar to heteroscedastic Gaussian models via learnable loss attenuation, and introduce a simple loss modification to control this behavior. Experiments on diverse datasets demonstrate that DDPN outperforms current baselines in accuracy, calibration, and out-of-distribution detection, establishing a new state-of-the-art in deep count regression.

arxiv情報

著者 Spencer Young,Porter Jenkins,Longchao Da,Jeff Dotson,Hua Wei
発行日 2025-05-28 17:30:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Fully Heteroscedastic Count Regression with Deep Double Poisson Networks はコメントを受け付けていません

Principled Out-of-Distribution Generalization via Simplicity

要約

現代の基礎モデルは、顕著な分散排出(OOD)一般化を示し、トレーニングデータのサポートをはるかに超えてタスクを解決します。
しかし、この現象を支える理論的原則はとらえどころのないままです。
このペーパーでは、画像生成における拡散モデルの組成一般化能力を調べることにより、この問題を調査します。
私たちの分析により、ニューラルネットワークアーキテクチャは、OOD入力の望ましくない動作を持つ多くの人を含む幅広いモデルを表すほど十分に表現力がありますが、人間の期待に沿った真の一般化可能なモデルは、通常、トレーニングデータと一致するものの間で最も単純なものに対応するものです。
この観察に動機付けられて、事前に定義されたシンプルさのメトリックを使用して定量化されたシンプルさを介して、OOD一般化のための理論的枠組みを開発します。
2つの重要なレジームを分析します。(1)一定のギャップ設定。真のモデルは、固定ギャップによってすべての偽の代替品よりも厳密に単純です。
両方の体制について、正規化された最尤推定器を研究し、真の一般化可能な単純なモデルを学習するための最初のシャープなサンプルの複雑さの保証を確立します。

要約(オリジナル)

Modern foundation models exhibit remarkable out-of-distribution (OOD) generalization, solving tasks far beyond the support of their training data. However, the theoretical principles underpinning this phenomenon remain elusive. This paper investigates this problem by examining the compositional generalization abilities of diffusion models in image generation. Our analysis reveals that while neural network architectures are expressive enough to represent a wide range of models — including many with undesirable behavior on OOD inputs — the true, generalizable model that aligns with human expectations typically corresponds to the simplest among those consistent with the training data. Motivated by this observation, we develop a theoretical framework for OOD generalization via simplicity, quantified using a predefined simplicity metric. We analyze two key regimes: (1) the constant-gap setting, where the true model is strictly simpler than all spurious alternatives by a fixed gap, and (2) the vanishing-gap setting, where the fixed gap is replaced by a smoothness condition ensuring that models close in simplicity to the true model yield similar predictions. For both regimes, we study the regularized maximum likelihood estimator and establish the first sharp sample complexity guarantees for learning the true, generalizable, simple model.

arxiv情報

著者 Jiawei Ge,Amanda Wang,Shange Tang,Chi Jin
発行日 2025-05-28 17:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | Principled Out-of-Distribution Generalization via Simplicity はコメントを受け付けていません

GraphOmni: A Comprehensive and Extendable Benchmark Framework for Large Language Models on Graph-theoretic Tasks

要約

このペーパーでは、自然言語で明確に表現されたグラフ理論タスク上のLLMの推論能力を評価するために設計された包括的なベンチマークであるGraphomniを紹介します。
Graphomniには、多様なグラフタイプ、シリアル化形式、およびプロンプトスキームが含まれ、範囲と深さの両方で以前の努力を大幅に超えています。
広範な体系的な評価を通じて、これらの次元間の重要な相互作用を特定し、モデルのパフォーマンスに大きな影響を与えます。
私たちの実験は、Claude-3.5やO4-Miniなどの最先端のモデルが他のモデルよりも一貫して優れていることを明らかにしていますが、これらの主要なモデルでさえ、改善の余地がかなりあります。
パフォーマンスの変動性は、これらの相互接続された次元にわたる包括的な評価の必要性を強調していることを強調しており、検討した要因の特定の組み合わせに応じて明らかです。
さらに、オープンソースとクローズドソースモデルの間でシリアル化と促進戦略の明確な影響を観察し、カスタマイズされたアプローチの開発を促進します。
調査結果に動機付けられているため、LLMの推論能力に影響を与える最適な要因を適応的に選択する強化学習にヒントを得たフレームワークも提案します。
この柔軟で拡張可能なベンチマークは、構造化されたタスクでのLLMパフォーマンスの理解を深めるだけでなく、LLMベースのグラフ推論で研究を進めるための堅牢な基盤を提供します。
コードとデータセットはhttps://github.com/gai-community/graphomniで入手できます。

要約(オリジナル)

This paper introduces GraphOmni, a comprehensive benchmark designed to evaluate the reasoning capabilities of LLMs on graph-theoretic tasks articulated in natural language. GraphOmni encompasses diverse graph types, serialization formats, and prompting schemes, significantly exceeding prior efforts in both scope and depth. Through extensive systematic evaluation, we identify critical interactions among these dimensions, demonstrating their substantial impact on model performance. Our experiments reveal that state-of-the-art models like Claude-3.5 and o4-mini consistently outperform other models, yet even these leading models exhibit substantial room for improvement. Performance variability is evident depending on the specific combinations of factors we considered, underscoring the necessity of comprehensive evaluations across these interconnected dimensions. Additionally, we observe distinct impacts of serialization and prompting strategies between open-source and closed-source models, encouraging the development of tailored approaches. Motivated by the findings, we also propose a reinforcement learning-inspired framework that adaptively selects the optimal factors influencing LLM reasoning capabilities. This flexible and extendable benchmark not only deepens our understanding of LLM performance on structured tasks but also provides a robust foundation for advancing research in LLM-based graph reasoning. The code and datasets are available at https://github.com/GAI-Community/GraphOmni.

arxiv情報

著者 Hao Xu,Xiangru Jian,Xinjian Zhao,Wei Pang,Chao Zhang,Suyuchen Wang,Qixin Zhang,Zhengyuan Dong,Joao Monteiro,Bang Liu,Qiuzhuang Sun,Tianshu Yu
発行日 2025-05-28 17:47:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DM, cs.LG | GraphOmni: A Comprehensive and Extendable Benchmark Framework for Large Language Models on Graph-theoretic Tasks はコメントを受け付けていません

Understanding (Un)Reliability of Steering Vectors in Language Models

要約

ステアリングベクターは、推論時間に活性化に学習バイアスを追加することにより、言語モデルの動作を制御する軽量な方法です。
ステアリングは有望なパフォーマンスを示していますが、最近の研究では、場合によっては信頼できないか、逆効果になる可能性があることが示されています。
このペーパーでは、迅速なタイプの影響と、ステアリングの信頼性に対する活性化の違いのジオメトリを研究します。
まず、実験で使用される7つのプロンプトタイプはすべて、正味の正のステアリング効果を生み出しますが、サンプル全体で高い分散を示し、しばしば目的のものとは反対の効果をもたらすことがわかります。
プロンプトタイプは明らかに他のものを上回ることはありませんが、さまざまなプロンプトタイプから生じるステアリングベクターは、しばしば方向性が異なります(コサインの類似性で測定されます)。
第二に、トレーニングセットのアクティベーションの違いの間のコサインの類似性が高いと、より効果的なステアリングが予測されることを示します。
最後に、正と負の活性化がより適切に分離されているデータセットがより操縦可能であることがわかります。
我々の結果は、ターゲットの動作がコヒーレントな方向で表されない場合、ベクトルステアリングが信頼できないことを示唆しています。

要約(オリジナル)

Steering vectors are a lightweight method to control language model behavior by adding a learned bias to the activations at inference time. Although steering demonstrates promising performance, recent work shows that it can be unreliable or even counterproductive in some cases. This paper studies the influence of prompt types and the geometry of activation differences on steering reliability. First, we find that all seven prompt types used in our experiments produce a net positive steering effect, but exhibit high variance across samples, and often give an effect opposite of the desired one. No prompt type clearly outperforms the others, and yet the steering vectors resulting from the different prompt types often differ directionally (as measured by cosine similarity). Second, we show that higher cosine similarity between training set activation differences predicts more effective steering. Finally, we observe that datasets where positive and negative activations are better separated are more steerable. Our results suggest that vector steering is unreliable when the target behavior is not represented by a coherent direction.

arxiv情報

著者 Joschka Braun,Carsten Eickhoff,David Krueger,Seyed Ali Bahrainian,Dmitrii Krasheninnikov
発行日 2025-05-28 17:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Understanding (Un)Reliability of Steering Vectors in Language Models はコメントを受け付けていません

SimProcess: High Fidelity Simulation of Noisy ICS Physical Processes

要約

産業制御システム(ICS)は、電力網や水処理プラントなどの重要なインフラストラクチャを管理します。
ICSSのサイバー攻撃は、運用を混乱させ、深刻な経済、環境、安全の問題を引き起こす可能性があります。
たとえば、水工場の検出されない汚染は、数千人の命を危険にさらす可能性があります。
ICSの研究者は、ハニーポットにますます目を向けています。攻撃者を引き付け、行動を研究し、最終的に防御メカニズムを改善するように設計されたデコイシステムです。
ただし、既存のICSハニーポットは、ICSの物理プロセスを再現するのに苦労しており、それらを検出しやすくします。
ICSの物理プロセスのノイズを正確にシミュレートすることは、センサーの欠陥や外部干渉など、異なる要因がそれを生成するため困難です。
この論文では、実世界と騒々しい物理プロセスにどれだけ似ているかを評価することにより、ICSシミュレーションの忠実度をランク付けする新しいフレームワークであるSimprocessを提案します。
ランダムフォレストのような機械学習モデルでノイズ分布を推定することにより、ターゲットシステムからのシミュレーション距離を測定します。
詳細な数学モデルを必要とする、または単純なシステムに限定されている既存のソリューションとは異なり、Simprocessは実際のシステムからの測定の数だけで動作し、より広範な複雑な動的システムに適用できます。
Epic TestBedの実際のパワーグリッドデータを使用して、ケーススタディを通じてフレームワークの有効性を実証します。
静的ノイズ技術や生成ノイズ技術を含む、さまざまなシミュレーション方法のパフォーマンスを比較します。
私たちのモデルは、最大1.0のリコールで実際のサンプルを正しく分類します。
また、ガウスとガウスの混合物を、自動エンコーダーが提供する生成ソリューションとともに、パワーシステムをシミュレートするのに最適な分布として識別し、それにより開発者がハニーポットの忠実度を改善するのに役立ちます。
さらに、コードを公開しています。

要約(オリジナル)

Industrial Control Systems (ICS) manage critical infrastructures like power grids and water treatment plants. Cyberattacks on ICSs can disrupt operations, causing severe economic, environmental, and safety issues. For example, undetected pollution in a water plant can put the lives of thousands at stake. ICS researchers have increasingly turned to honeypots — decoy systems designed to attract attackers, study their behaviors, and eventually improve defensive mechanisms. However, existing ICS honeypots struggle to replicate the ICS physical process, making them susceptible to detection. Accurately simulating the noise in ICS physical processes is challenging because different factors produce it, including sensor imperfections and external interferences. In this paper, we propose SimProcess, a novel framework to rank the fidelity of ICS simulations by evaluating how closely they resemble real-world and noisy physical processes. It measures the simulation distance from a target system by estimating the noise distribution with machine learning models like Random Forest. Unlike existing solutions that require detailed mathematical models or are limited to simple systems, SimProcess operates with only a timeseries of measurements from the real system, making it applicable to a broader range of complex dynamic systems. We demonstrate the framework’s effectiveness through a case study using real-world power grid data from the EPIC testbed. We compare the performance of various simulation methods, including static and generative noise techniques. Our model correctly classifies real samples with a recall of up to 1.0. It also identifies Gaussian and Gaussian Mixture as the best distribution to simulate our power systems, together with a generative solution provided by an autoencoder, thereby helping developers to improve honeypot fidelity. Additionally, we make our code publicly available.

arxiv情報

著者 Denis Donadel,Gabriele Crestanello,Giulio Morandini,Daniele Antonioli,Mauro Conti,Massimo Merro
発行日 2025-05-28 17:54:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | SimProcess: High Fidelity Simulation of Noisy ICS Physical Processes はコメントを受け付けていません

Spectral Survival Analysis

要約

サバイバル分析は、ヘルスケア、ビジネス、エコロジーなどを含む多様な分野に広く展開されています。Cox比例ハザード(COXPH)モデルは、文献でよく遭遇する半パラメトリックモデルです。
その人気、幅広い展開、および多数のバリエーションにもかかわらず、特に高次元体制では、大規模なデータセットとディープアーキテクチャへのコックスをスケーリングすることが課題となります。
ランク回帰とCOXPHモデルの間の基本的なつながりを特定します。これにより、ランク回帰のためにいわゆるスペクトル法を適応および拡張することができます。
私たちのアプローチは多用途であり、深いモデルを含むいくつかのCoxphバリアントに自然に一般化されています。
複数の実際の高次元データセットでのメソッドのスケーラビリティを経験的に検証します。
私たちの方法は、レガシー方法W.R.Tを上回る
予測パフォーマンスと効率。

要約(オリジナル)

Survival analysis is widely deployed in a diverse set of fields, including healthcare, business, ecology, etc. The Cox Proportional Hazard (CoxPH) model is a semi-parametric model often encountered in the literature. Despite its popularity, wide deployment, and numerous variants, scaling CoxPH to large datasets and deep architectures poses a challenge, especially in the high-dimensional regime. We identify a fundamental connection between rank regression and the CoxPH model: this allows us to adapt and extend the so-called spectral method for rank regression to survival analysis. Our approach is versatile, naturally generalizing to several CoxPH variants, including deep models. We empirically verify our method’s scalability on multiple real-world high-dimensional datasets; our method outperforms legacy methods w.r.t. predictive performance and efficiency.

arxiv情報

著者 Chengzhi Shi,Stratis Ioannidis
発行日 2025-05-28 17:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Spectral Survival Analysis はコメントを受け付けていません