Risk-Averse Reinforcement Learning with Itakura-Saito Loss

要約

リスク回避補強学習は、さまざまなハイステークス分野で適用されます。
期待収益を最大化することを目的とする古典的な強化学習とは異なり、リスク回避エージェントは、リスクを最小限に抑えるポリシーを選択し、時には期待値を犠牲にします。
これらの好みは、ユーティリティ理論を通じてフレーム化できます。
私たちは、ベルマン方程式を導き出し、ほとんど変更を加えてさまざまな強化学習アルゴリズムを採用できる指数効用関数の特定のケースに焦点を当てています。
ただし、これらの方法は、プロセス全体の指数計算が必要なため、数値の不安定性に悩まされています。
これに対処するために、状態価値とアクション価値関数を学習するための伊藤皮 – 皮の発散に基づいて、数値的に安定した数学的に健全な損失関数を導入します。
理論的および経験的に、確立された代替案に対して提案された損失関数を評価します。
実験セクションでは、既知の分析ソリューションを備えた複数の財務シナリオを調査し、損失関数が代替案よりも優れていることを示します。

要約(オリジナル)

Risk-averse reinforcement learning finds application in various high-stakes fields. Unlike classical reinforcement learning, which aims to maximize expected returns, risk-averse agents choose policies that minimize risk, occasionally sacrificing expected value. These preferences can be framed through utility theory. We focus on the specific case of the exponential utility function, where we can derive the Bellman equations and employ various reinforcement learning algorithms with few modifications. However, these methods suffer from numerical instability due to the need for exponent computation throughout the process. To address this, we introduce a numerically stable and mathematically sound loss function based on the Itakura-Saito divergence for learning state-value and action-value functions. We evaluate our proposed loss function against established alternatives, both theoretically and empirically. In the experimental section, we explore multiple financial scenarios, some with known analytical solutions, and show that our loss function outperforms the alternatives.

arxiv情報

著者 Igor Udovichenko,Olivier Croissant,Anita Toleutaeva,Evgeny Burnaev,Alexander Korotin
発行日 2025-05-22 17:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Risk-Averse Reinforcement Learning with Itakura-Saito Loss はコメントを受け付けていません

SPAR: Self-supervised Placement-Aware Representation Learning for Multi-Node IoT Systems

要約

この作業は、空間的に分散した(マルチビューおよびマルチモーダル)センサーの観測を考慮して、自己科学の配置を意識した表現学習の基盤を開発します。
IoTシステムでの検知の目的は、一般に、感覚観測が発生する複数の有利な点を考慮して、外部から観察された環境を集合的に表すことです。
したがって、センサーデータを解釈するのに役立つモデルの事前削除は、センサーによって観察された信号とオブザーバーの有利な点との関係をエンコードして、測定機器の特定の配置によって通知された方法で観測された空間現象をコードする表現を獲得しながら、任意の配置を可能にすることによって指標を達成する必要があります。
この作業は、IoTデータの特徴的な空間性を見落とす現在のソリューションを超えて、IoTシグナルから事前に事前に取引される自己監視モデルを前進させます。
私たちのフレームワークは、測定と幾何学的オブザーバーのレイアウトと構造的特性の間の依存関係を明示的に学習します。これは、コア設計の原則、つまり信号とオブザーバーの位置の二重性に導かれます。
さらに、情報理論とオクルージョン不変の表現の観点から理論的分析を、デザインの背後にある理論的根拠への洞察を提供する学習を提供します。
覆われた車両の監視、人間の活動認識、地震のローカリゼーションの3つの実際のデータセットでの実験は、多様なモダリティ、センサーの配置、アプリケーションレベルの推論タスク、および空間スケールにわたるメソッドの優れた一般化可能性と堅牢性を実証します。

要約(オリジナル)

This work develops the underpinnings of self-supervised placement-aware representation learning given spatially-distributed (multi-view and multimodal) sensor observations, motivated by the need to represent external environmental state in multi-sensor IoT systems in a manner that correctly distills spatial phenomena from the distributed multi-vantage observations. The objective of sensing in IoT systems is, in general, to collectively represent an externally observed environment given multiple vantage points from which sensory observations occur. Pretraining of models that help interpret sensor data must therefore encode the relation between signals observed by sensors and the observers’ vantage points in order to attain a representation that encodes the observed spatial phenomena in a manner informed by the specific placement of the measuring instruments, while allowing arbitrary placement. The work significantly advances self-supervised model pretraining from IoT signals beyond current solutions that often overlook the distinctive spatial nature of IoT data. Our framework explicitly learns the dependencies between measurements and geometric observer layouts and structural characteristics, guided by a core design principle: the duality between signals and observer positions. We further provide theoretical analyses from the perspectives of information theory and occlusion-invariant representation learning to offer insight into the rationale behind our design. Experiments on three real-world datasets–covering vehicle monitoring, human activity recognition, and earthquake localization–demonstrate the superior generalizability and robustness of our method across diverse modalities, sensor placements, application-level inference tasks, and spatial scales.

arxiv情報

著者 Yizhuo Chen,Tianchen Wang,You Lyu,Yanlan Hu,Jinyang Li,Tomoyoshi Kimura,Hongjue Zhao,Yigong Hu,Denizhan Kara,Tarek Abdelzaher
発行日 2025-05-22 17:26:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | SPAR: Self-supervised Placement-Aware Representation Learning for Multi-Node IoT Systems はコメントを受け付けていません

NY Real Estate Racial Equity Analysis via Applied Machine Learning

要約

この調査では、人種的格差を明らかにするために、ニューヨーク州(NYS)とニューヨーク市(NYC)の路面レベルの不動産所有パターンを分析します。
高度な人種/民族の代入モデル(XGBoostフィルタリングを備えたLSTM+GEO、89.2%の精度で検証)を使用して、財産所有者の予測された人種構成を国勢調査データから居住者集団と比較します。
完全なモデル(州全体)と名前のみのLSTMモデル(NYC)の両方を調べて、地理空間のコンテキストを組み込むことが予測と格差の推定にどのように影響するかを評価します。
結果は大きな不平等を明らかにしています。白人は人口に比べて不均衡な財産と財産価値の不均衡なシェアを保持し、黒人、ヒスパニック系、アジアのコミュニティは財産所有者として過小評価されています。
これらの格差は、主に非白人の人口にもかかわらず、所有権が主に白人である少数派の大部分で最も顕著です。
企業の所有権(LLC、信託など)は、都市の少数派コミュニティの所有者が占める機会を減らすことにより、これらのギャップを悪化させます。
私たちは、多数派、ブラック、 – ヒスパニック、および-asianの地域の人種ごとの所有権と人口の内訳を提供し、極端な所有権の格差を持つ人々を特定し、都市、郊外、農村部の文脈のパターンを比較します。
調査結果は、より広範な歴史的および社会経済的勢力を反映して、財産所有権における持続的な人種的不平等を強調し、これらの問題に対処するためのデータ駆動型アプローチの重要性を強調しています。

要約(オリジナル)

This study analyzes tract-level real estate ownership patterns in New York State (NYS) and New York City (NYC) to uncover racial disparities. We use an advanced race/ethnicity imputation model (LSTM+Geo with XGBoost filtering, validated at 89.2% accuracy) to compare the predicted racial composition of property owners to the resident population from census data. We examine both a Full Model (statewide) and a Name-Only LSTM Model (NYC) to assess how incorporating geospatial context affects our predictions and disparity estimates. The results reveal significant inequities: White individuals hold a disproportionate share of properties and property value relative to their population, while Black, Hispanic, and Asian communities are underrepresented as property owners. These disparities are most pronounced in minority-majority neighborhoods, where ownership is predominantly White despite a predominantly non-White population. Corporate ownership (LLCs, trusts, etc.) exacerbates these gaps by reducing owner-occupied opportunities in urban minority communities. We provide a breakdown of ownership vs. population by race for majority-White, -Black, -Hispanic, and -Asian tracts, identify those with extreme ownership disparities, and compare patterns in urban, suburban, and rural contexts. The findings underscore persistent racial inequity in property ownership, reflecting broader historical and socio-economic forces, and highlight the importance of data-driven approaches to address these issues.

arxiv情報

著者 Sanjana Chalavadi,Andrei Pastor,Terry Leitch
発行日 2025-05-22 17:32:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG | NY Real Estate Racial Equity Analysis via Applied Machine Learning はコメントを受け付けていません

ICYM2I: The illusion of multimodal informativeness under missingness

要約

マルチモーダル学習は、さまざまな種類のデータを組み合わせることによる潜在的な情報の獲得に動機付けられた人工知能ベースのアプリケーションに継続的に関心があります。
ただし、開発中に収集およびキュレーションされたモダリティは、コスト、ハードウェアの障害、またはこの作業で主張するように、特定のモダリティの認識された情報性など、複数の要因により展開時に利用可能なモダリティとは異なる場合があります。
Na {\ ‘I}は、欠落を考慮せずに追加のモダリティを含めることに関連する情報ゲインの推定を、下流タスクにおけるそのモダリティの価値の不適切な推定をもたらす可能性があります。
私たちの仕事は、マルチモーダル学習における欠落の問題を形式化し、このプロセスを無視することから生じるバイアスを示しています。
この問題に対処するために、ICYM2I(マルチモーダルが見逃した場合)を紹介します。これは、逆確率の重み付けベースの補正を通じて、予測パフォーマンスと情報の獲得の評価のためのフレームワークです。
合成、半合成、および実世界の医療データセットの欠落下での情報ゲインを推定するための提案された調整の重要性を実証します。

要約(オリジナル)

Multimodal learning is of continued interest in artificial intelligence-based applications, motivated by the potential information gain from combining different types of data. However, modalities collected and curated during development may differ from the modalities available at deployment due to multiple factors including cost, hardware failure, or — as we argue in this work — the perceived informativeness of a given modality. Na{\’i}ve estimation of the information gain associated with including an additional modality without accounting for missingness may result in improper estimates of that modality’s value in downstream tasks. Our work formalizes the problem of missingness in multimodal learning and demonstrates the biases resulting from ignoring this process. To address this issue, we introduce ICYM2I (In Case You Multimodal Missed It), a framework for the evaluation of predictive performance and information gain under missingness through inverse probability weighting-based correction. We demonstrate the importance of the proposed adjustment to estimate information gain under missingness on synthetic, semi-synthetic, and real-world medical datasets.

arxiv情報

著者 Young Sang Choi,Vincent Jeanselme,Pierre Elias,Shalmali Joshi
発行日 2025-05-22 17:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | ICYM2I: The illusion of multimodal informativeness under missingness はコメントを受け付けていません

A Comprehensive Evaluation of Contemporary ML-Based Solvers for Combinatorial Optimization

要約

機械学習(ML)は、組み合わせ最適化(CO)の問題のモデル設計と最適化をサポートする上でかなりの可能性を実証しています。
ただし、これまでの進歩の多くは、小規模で合成データセットで評価されており、実際の大規模なCOシナリオにおけるMLベースのソルバーの実際の有効性に関する懸念を引き起こしています。
さらに、多くの既存のCOベンチマークには十分なトレーニングデータがなく、データ駆動型アプローチを評価するためのユーティリティを制限しています。
これらの制限に対処するために、Frontiercoを紹介します。Frontiercoは、8つの標準CO問題タイプをカバーし、グラフニューラルネットワークと大規模な言語モデル(LLM)エージェントを含む16の代表MLベースのソルバーを評価する包括的なベンチマークです。
Frontiercoは、産業用アプリケーションとFrontier Co Researchから引き出された挑戦的なインスタンスを特徴としており、現実的な問題の難しさと豊富なトレーニングデータの両方を提供しています。
私たちの経験的結果は、現在のMLメソッドの強みと制限に関する重要な洞察を提供し、機械学習と組み合わせの最適化の交差点で、より堅牢で実質的に関連する進歩を導くのに役立ちます。
データはhttps://huggingface.co/datasets/co-bench/frontiercoで入手できます。

要約(オリジナル)

Machine learning (ML) has demonstrated considerable potential in supporting model design and optimization for combinatorial optimization (CO) problems. However, much of the progress to date has been evaluated on small-scale, synthetic datasets, raising concerns about the practical effectiveness of ML-based solvers in real-world, large-scale CO scenarios. Additionally, many existing CO benchmarks lack sufficient training data, limiting their utility for evaluating data-driven approaches. To address these limitations, we introduce FrontierCO, a comprehensive benchmark that covers eight canonical CO problem types and evaluates 16 representative ML-based solvers–including graph neural networks and large language model (LLM) agents. FrontierCO features challenging instances drawn from industrial applications and frontier CO research, offering both realistic problem difficulty and abundant training data. Our empirical results provide critical insights into the strengths and limitations of current ML methods, helping to guide more robust and practically relevant advances at the intersection of machine learning and combinatorial optimization. Our data is available at https://huggingface.co/datasets/CO-Bench/FrontierCO.

arxiv情報

著者 Shengyu Feng,Weiwei Sun,Shanda Li,Ameet Talwalkar,Yiming Yang
発行日 2025-05-22 17:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Comprehensive Evaluation of Contemporary ML-Based Solvers for Combinatorial Optimization はコメントを受け付けていません

KAN-AD: Time Series Anomaly Detection with Kolmogorov-Arnold Networks

要約

時系列の異常検出(TSAD)は、クラウドサービスとWebシステムでのリアルタイム監視を支えているため、費用のかかる障害を防ぐための異常の迅速な識別が可能になります。
予測モデルによって駆動されるほとんどのTSADメソッドは、軽微な変動を強調することにより、過剰採用する傾向があります。
私たちの分析により、効果的なTSADは、スムーズなローカルパターンを通じて「通常の」動作のモデリングに焦点を当てるべきであることが明らかになりました。
これを達成するために、滑らかな単変量関数でシリーズを近似するものとして時系列モデリングを再定式化します。
各単変量関数の局所的な滑らかさは、適合した時系列が局所障害に対して回復力のあるままであることを保証します。
ただし、直接的なKANの実装は、Bスプライン関数の本質的に局所的な特性により、これらの障害の影響を受けやすいことを証明します。
したがって、Kan-adを提案し、Bスプラインを切り捨てられたフーリエ拡張に置き換え、局所的な乱れに堅牢にとどまりながらグローバルなパターンを強調する新しい軽量学習メカニズムを導入します。
4つの人気のあるTSADベンチマークでは、Kan-Adは、最先端のベースラインで検出精度(ピークが27%を超える)の平均15%の改善を達成しました。
驚くべきことに、1,000未満のトレーニング可能なパラメーターが必要であり、元のKANと比較して50%速い推論速度をもたらし、アプローチの効率と実用的な実行可能性を示しています。

要約(オリジナル)

Time series anomaly detection (TSAD) underpins real-time monitoring in cloud services and web systems, allowing rapid identification of anomalies to prevent costly failures. Most TSAD methods driven by forecasting models tend to overfit by emphasizing minor fluctuations. Our analysis reveals that effective TSAD should focus on modeling ‘normal’ behavior through smooth local patterns. To achieve this, we reformulate time series modeling as approximating the series with smooth univariate functions. The local smoothness of each univariate function ensures that the fitted time series remains resilient against local disturbances. However, a direct KAN implementation proves susceptible to these disturbances due to the inherently localized characteristics of B-spline functions. We thus propose KAN-AD, replacing B-splines with truncated Fourier expansions and introducing a novel lightweight learning mechanism that emphasizes global patterns while staying robust to local disturbances. On four popular TSAD benchmarks, KAN-AD achieves an average 15% improvement in detection accuracy (with peaks exceeding 27%) over state-of-the-art baselines. Remarkably, it requires fewer than 1,000 trainable parameters, resulting in a 50% faster inference speed compared to the original KAN, demonstrating the approach’s efficiency and practical viability.

arxiv情報

著者 Quan Zhou,Changhua Pei,Fei Sun,Jing Han,Zhengwei Gao,Dan Pei,Haiming Zhang,Gaogang Xie,Jianhui Li
発行日 2025-05-22 17:36:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | KAN-AD: Time Series Anomaly Detection with Kolmogorov-Arnold Networks はコメントを受け付けていません

Bigger Isn’t Always Memorizing: Early Stopping Overparameterized Diffusion Models

要約

拡散確率モデルは現代の生成AIの基礎となっていますが、その一般化の根底にあるメカニズムはよく理解されていません。
実際、これらのモデルがトレーニングの損失を完全に最小限に抑えている場合、トレーニングセットに属するデータを生成するだけです。つまり、オーバーパラメーター化された体制で経験的に見られるように、記憶します。
この見解は、高度に過剰なパラメーター化された拡散モデルでは、記憶の開始前にトレーニング中に自然データドメインの一般化が徐々に達成されることを示します。
画像から言語拡散モデルまでの範囲の結果は、暗記時間がデータセットサイズに比例するという経験的法則を体系的に支持しています。
一般化と暗記は、時間スケール間の競争として最もよく理解されます。
この現象学は、ランダムなルールを使用して単純な確率論的文脈のない文法を学習する拡散モデルで回復していることを示します。一般化は、トレーニング時間が増加するにつれて、より深い文法規則の階層的な獲得に対応し、早期停止の一般化コストを特徴付けることができます。
これらの結果を相図にまとめます。
全体として、我々の結果は、原則的な早期止まる基準 – データセットサイズを使用したスケーリング – が、ハイパーパラメーターの転送とプライバシーに敏感なアプリケーションに直接影響を与え、暗記を回避しながら一般化を効果的に最適化できることをサポートしています。

要約(オリジナル)

Diffusion probabilistic models have become a cornerstone of modern generative AI, yet the mechanisms underlying their generalization remain poorly understood. In fact, if these models were perfectly minimizing their training loss, they would just generate data belonging to their training set, i.e., memorize, as empirically found in the overparameterized regime. We revisit this view by showing that, in highly overparameterized diffusion models, generalization in natural data domains is progressively achieved during training before the onset of memorization. Our results, ranging from image to language diffusion models, systematically support the empirical law that memorization time is proportional to the dataset size. Generalization vs. memorization is then best understood as a competition between time scales. We show that this phenomenology is recovered in diffusion models learning a simple probabilistic context-free grammar with random rules, where generalization corresponds to the hierarchical acquisition of deeper grammar rules as training time grows, and the generalization cost of early stopping can be characterized. We summarize these results in a phase diagram. Overall, our results support that a principled early-stopping criterion – scaling with dataset size – can effectively optimize generalization while avoiding memorization, with direct implications for hyperparameter transfer and privacy-sensitive applications.

arxiv情報

著者 Alessandro Favero,Antonio Sclocchi,Matthieu Wyart
発行日 2025-05-22 17:40:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Bigger Isn’t Always Memorizing: Early Stopping Overparameterized Diffusion Models はコメントを受け付けていません

PICT — A Differentiable, GPU-Accelerated Multi-Block PISO Solver for Simulation-Coupled Learning Tasks in Fluid Dynamics

要約

何十年もの進歩にもかかわらず、流体のシミュレーションは科学的コンピューティングの最も挑戦的な分野の1つであり続けています。
深い学習におけるグラデーション情報の必要性にサポートされているため、微分可能なシミュレーターは、物理シミュレーションで最適化と学習のための効果的なツールとして浮上しています。
この作業では、Pytorchでグラフィックプロセスユニット(GPU)サポートをコードした微分可能な圧力インプリティソルバーであるFluid Simulator Pictを提示します。
最初に、ソルバーが提供する勾配を使用して2Dおよび3Dで複雑な乱流モデルを学習することができることを示す前に、前方シミュレーションと誘導された勾配の両方の確立されたベンチマークの両方の確立された勾配の精度を検証します。
フロー統計に合わせて物理的なプライアーを使用して、監視されていないトレーニング制度と監督されていないトレーニング体制の両方を適用します。
特に、参照統計に基づいて純粋に3D乱流チャネルフローの安定したサブグリッドスケール(SGS)モデルを学習します。
ソルバーで訓練された低解像度の修正器は、高度に解決された参照よりも大幅に速く実行され、その精度を維持したり、それを上回ったりします。
最後に、さまざまなソルバー勾配の物理的解釈に関する追加の洞察を提供し、物理的に情報に基づいた正規化手法を動機付けます。
PICTの完全な可能性を活用できるようにするために、オープンソースとして公開されています:https://github.com/tum-pbs/pict。

要約(オリジナル)

Despite decades of advancements, the simulation of fluids remains one of the most challenging areas of in scientific computing. Supported by the necessity of gradient information in deep learning, differentiable simulators have emerged as an effective tool for optimization and learning in physics simulations. In this work, we present our fluid simulator PICT, a differentiable pressure-implicit solver coded in PyTorch with Graphics-processing-unit (GPU) support. We first verify the accuracy of both the forward simulation and our derived gradients in various established benchmarks like lid-driven cavities and turbulent channel flows before we show that the gradients provided by our solver can be used to learn complicated turbulence models in 2D and 3D. We apply both supervised and unsupervised training regimes using physical priors to match flow statistics. In particular, we learn a stable sub-grid scale (SGS) model for a 3D turbulent channel flow purely based on reference statistics. The low-resolution corrector trained with our solver runs substantially faster than the highly resolved references, while keeping or even surpassing their accuracy. Finally, we give additional insights into the physical interpretation of different solver gradients, and motivate a physically informed regularization technique. To ensure that the full potential of PICT can be leveraged, it is published as open source: https://github.com/tum-pbs/PICT.

arxiv情報

著者 Aleksandra Franz,Hao Wei,Luca Guastoni,Nils Thuerey
発行日 2025-05-22 17:55:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.comp-ph | PICT — A Differentiable, GPU-Accelerated Multi-Block PISO Solver for Simulation-Coupled Learning Tasks in Fluid Dynamics はコメントを受け付けていません

A Unified Framework for Simultaneous Parameter and Function Discovery in Differential Equations

要約

微分方程式を含む逆問題は、多くの場合、データから不明なパラメーターまたは関数を識別する必要があります。
物理学に基づいたニューラルネットワーク(PINNS)、ユニバーサル微分方程式(UDES)、普遍的な物理学に基づいたニューラルネットワーク(UPINNS)などの既存のアプローチは、パラメーターまたは関数のいずれかを分離するのに効果的ですが、解決策のために同時に適用すると課題に直面すると課題に直面することができます。
この作業では、一意のソリューションを保証できる条件を確立することにより、これらの制限に対処するフレームワークを紹介します。
説明するために、生物系と生態学的ダイナミクスの例に適用し、正確で解釈可能な結果を​​示します。
私たちのアプローチは、科学と工学の複雑なシステムをモデル化する際の機械学習技術の可能性を大幅に強化します。

要約(オリジナル)

Inverse problems involving differential equations often require identifying unknown parameters or functions from data. Existing approaches, such as Physics-Informed Neural Networks (PINNs), Universal Differential Equations (UDEs) and Universal Physics-Informed Neural Networks (UPINNs), are effective at isolating either parameters or functions but can face challenges when applied simultaneously due to solution non-uniqueness. In this work, we introduce a framework that addresses these limitations by establishing conditions under which unique solutions can be guaranteed. To illustrate, we apply it to examples from biological systems and ecological dynamics, demonstrating accurate and interpretable results. Our approach significantly enhances the potential of machine learning techniques in modeling complex systems in science and engineering.

arxiv情報

著者 Shalev Manor,Mohammad Kohandel
発行日 2025-05-22 17:56:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Unified Framework for Simultaneous Parameter and Function Discovery in Differential Equations はコメントを受け付けていません

Critical Points of Random Neural Networks

要約

この作業では、無限幅の制限が深さが増加するにつれて、異なる活性化関数を持つランダムニューラルネットワークの臨界点の予想数を調査します。
適切な規則性条件下では、固定インデックスの臨界点と特定のしきい値を超える臨界点の数の正確な漸近式を導き出します。
私たちの分析では、1で評価された共分散の最初の導関数の値に応じて3つの異なるレジームが明らかになりました。
理論的予測は、数値実験によって裏付けられています。
さらに、規則性条件が満たされていない場合(たとえば、活性化関数としてのreluを持つニューラルネットワークの場合)、マップ解像度が増加すると臨界点の数が増加し、重要なポイントの数の潜在的な分岐を示すことを示唆する数値的証拠を提供します。

要約(オリジナル)

This work investigates the expected number of critical points of random neural networks with different activation functions as the depth increases in the infinite-width limit. Under suitable regularity conditions, we derive precise asymptotic formulas for the expected number of critical points of fixed index and those exceeding a given threshold. Our analysis reveals three distinct regimes depending on the value of the first derivative of the covariance evaluated at 1: the expected number of critical points may converge, grow polynomially, or grow exponentially with depth. The theoretical predictions are supported by numerical experiments. Moreover, we provide numerical evidence suggesting that, when the regularity condition is not satisfied (e.g. for neural networks with ReLU as activation function), the number of critical points increases as the map resolution increases, indicating a potential divergence in the number of critical points.

arxiv情報

著者 Simmaco Di Lillo
発行日 2025-05-22 17:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 60G60, 62B10, 62M45, cs.LG, math.PR, stat.ML | Critical Points of Random Neural Networks はコメントを受け付けていません