Deconstructing Jazz Piano Style Using Machine Learning

要約

芸術的なスタイルは何世紀にもわたって研究されてきましたが、機械学習の最近の進歩は、計算的にそれを理解するための新しい可能性を生み出しています。
しかし、機械学習モデルが実践者や批評家の利益と一致する洞察を生み出すことを保証することは、依然として重要な課題です。
ここでは、豊かな理論的および数学的分析の伝統の恩恵を受ける音楽スタイルに焦点を当てています。
さまざまな監視済み学習モデルをトレーニングして、84時間の録音の慎重にキュレーションされたデータセットで20人の象徴的なジャズミュージシャンを特定し、意思決定プロセスを解釈します。
私たちのモデルには、4つの音楽ドメイン(メロディー、ハーモニー、リズム、ダイナミクス)を個別に分析できる新しいマルチ入力アーキテクチャが含まれています。
これらのモデルにより、音楽理論の基本的な質問に対処し、音楽パフォーマーの識別(20のクラスで94%の精度)を前進させることができます。
モデルのオープンソースの実装と、音楽スタイルを探索するための付随するWebアプリケーションをリリースします。

要約(オリジナル)

Artistic style has been studied for centuries, and recent advances in machine learning create new possibilities for understanding it computationally. However, ensuring that machine-learning models produce insights aligned with the interests of practitioners and critics remains a significant challenge. Here, we focus on musical style, which benefits from a rich theoretical and mathematical analysis tradition. We train a variety of supervised-learning models to identify 20 iconic jazz musicians across a carefully curated dataset of 84 hours of recordings, and interpret their decision-making processes. Our models include a novel multi-input architecture that enables four musical domains (melody, harmony, rhythm, and dynamics) to be analysed separately. These models enable us to address fundamental questions in music theory and also advance the state-of-the-art in music performer identification (94% accuracy across 20 classes). We release open-source implementations of our models and an accompanying web application for exploring musical styles.

arxiv情報

著者 Huw Cheston,Reuben Bance,Peter M. C. Harrison
発行日 2025-05-14 15:56:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, cs.SD, eess.AS | Deconstructing Jazz Piano Style Using Machine Learning はコメントを受け付けていません

Depth-Based Local Center Clustering: A Framework for Handling Different Clustering Scenarios

要約

クラスター分析、またはクラスタリングは、多くの科学および工学ドメインで重要な役割を果たします。
過去数十年にわたって提案された豊富なクラスタリング方法にもかかわらず、各方法は通常、特定のシナリオ向けに設計されており、実際のアプリケーションで特定の制限を提示します。
この論文では、深度ベースのローカルセンタークラスタリング(DLCC)を提案します。
この新しい方法では、多変量空間でサンプルポイントの中心外向きの順序を生成することが知られているデータの深さを利用しています。
ただし、データの深さは通常、{データ}のマルチモーダル特性をキャプチャできません。これは、クラスタリングのコンテキストで最も重要なことです。
これを克服するために、DLCCは{data}のサブセットに基づくデータの深さのローカルバージョンを使用します。
これから、ローカルセンターを特定することができ、さまざまな形状のクラスターを特定できます。
さらに、{非凸クラスター}のクラスタリングパフォーマンスを評価するために、密度ベースのクラスタリングに基づいた新しい内部メトリックを提案します。
全体として、DLCCは、従来のクラスタリング方法のいくつかの制限を克服していると思われる柔軟なクラスタリングアプローチであり、それにより、幅広いアプリケーションシナリオにわたってデータ分析機能を強化します。

要約(オリジナル)

Cluster analysis, or clustering, plays a crucial role across numerous scientific and engineering domains. Despite the wealth of clustering methods proposed over the past decades, each method is typically designed for specific scenarios and presents certain limitations in practical applications. In this paper, we propose depth-based local center clustering (DLCC). This novel method makes use of data depth, which is known to produce a center-outward ordering of sample points in a multivariate space. However, data depth typically fails to capture the multimodal characteristics of {data}, something of the utmost importance in the context of clustering. To overcome this, DLCC makes use of a local version of data depth that is based on subsets of {data}. From this, local centers can be identified as well as clusters of varying shapes. Furthermore, we propose a new internal metric based on density-based clustering to evaluate clustering performance on {non-convex clusters}. Overall, DLCC is a flexible clustering approach that seems to overcome some limitations of traditional clustering methods, thereby enhancing data analysis capabilities across a wide range of application scenarios.

arxiv情報

著者 Siyi Wang,Alexandre Leblanc,Paul D. McNicholas
発行日 2025-05-14 16:08:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.ME | Depth-Based Local Center Clustering: A Framework for Handling Different Clustering Scenarios はコメントを受け付けていません

IAEmu: Learning Galaxy Intrinsic Alignment Correlations

要約

弱いレンズ分析の重要な汚染物質である銀河の固有のアラインメント(IA)は、潮の相互作用と銀河形成プロセスによって駆動される銀河形状の相関から生じます。
正確なIAモデリングは、堅牢な宇宙論的推論には不可欠ですが、現在のアプローチは、非線形スケールまたは高価なシミュレーションで分解する摂動方法に依存しています。
Galaxy Position-Position($ \ xi $)、位置指向($ \ omega $)、および方向指向($ \ eta $)の相関関数とHaloの職業分布(HAD)のモックカタログ(HOD)フレームワークに基づいたMOCKカタログを使用した不確実性を予測するニューラルネットワークベースのエミュレータであるIAEMUを紹介します。
シミュレーションと比較して、IAEMUは、$ \ xi $で約3%、$ \ omega $で約5%を達成し、過剰留置せずに$ \ eta $の確率をキャプチャします。
エミュレータは、アレアトリックと認識論の両方の不確実性を提供し、予測の信頼性が低い地域を特定するのに役立ちます。
また、IllustristNg流分力学シミュレーションデータに適合することにより、非HODアライメント信号への一般化を示します。
完全に微分可能なニューラルネットワークとして、IAEMUは、CPUベースのシミュレーションと比較して、GPUの相関関数へのマッピングHODパラメーターで$ \ sim $ 10,000 $ $ \ times $速度を有効にします。
この加速により、グラデーションベースのサンプリングを介して逆モデリングが促進され、IAEMUがGalaxyバイアスおよびIA研究を伴うIVの弱いレンズ調査のIA研究の強力な代理モデルになります。

要約(オリジナル)

The intrinsic alignments (IA) of galaxies, a key contaminant in weak lensing analyses, arise from correlations in galaxy shapes driven by tidal interactions and galaxy formation processes. Accurate IA modeling is essential for robust cosmological inference, but current approaches rely on perturbative methods that break down on nonlinear scales or on expensive simulations. We introduce IAEmu, a neural network-based emulator that predicts the galaxy position-position ($\xi$), position-orientation ($\omega$), and orientation-orientation ($\eta$) correlation functions and their uncertainties using mock catalogs based on the halo occupation distribution (HOD) framework. Compared to simulations, IAEmu achieves ~3% average error for $\xi$ and ~5% for $\omega$, while capturing the stochasticity of $\eta$ without overfitting. The emulator provides both aleatoric and epistemic uncertainties, helping identify regions where predictions may be less reliable. We also demonstrate generalization to non-HOD alignment signals by fitting to IllustrisTNG hydrodynamical simulation data. As a fully differentiable neural network, IAEmu enables $\sim$10,000$\times$ speed-ups in mapping HOD parameters to correlation functions on GPUs, compared to CPU-based simulations. This acceleration facilitates inverse modeling via gradient-based sampling, making IAEmu a powerful surrogate model for galaxy bias and IA studies with direct applications to Stage IV weak lensing surveys.

arxiv情報

著者 Sneh Pandya,Yuanyuan Yang,Nicholas Van Alfen,Jonathan Blazek,Robin Walters
発行日 2025-05-14 16:12:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.CO, astro-ph.GA, cs.LG | IAEmu: Learning Galaxy Intrinsic Alignment Correlations はコメントを受け付けていません

Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design

要約

複数の、しばしば矛盾した機能的および生物物理学的基準を満たす生物学的配列の設計は、生体分子工学の中心的な課題のままです。
ディスクリートフローマッチングモデルは最近、高次元シーケンススペースで効率的なサンプリングを有望であることを示していますが、既存のアプローチは単一の目的のみに対処するか、離散分布を歪める連続埋め込みを必要とします。
複数のスカラー目標にわたってパレート効率の高いトレードオフに向けて前提条件の離散フローマッチングジェネレーターを操縦する一般的なフレームワークである、多目的誘導の離散フローマッチング(MOG-DFM)を提示します。
各サンプリングステップで、MOG-DFMは候補遷移のハイブリッドランクダイレクションスコアを計算し、一貫した多目的進行を強制するために適応型ハイパーコーンフィルターを適用します。
また、MOG-DFMのベース生成モデルとして、2つの無条件の離散フローマッチングモデル、多様なペプチド生成用のPEPDFMと機能的エンハンサーDNA生成のエンモンカルドFMを訓練しました。
5つの特性(溶血、非フーリング、溶解度、半減期、結合親和性)で最適化されたペプチドバインダーの生成におけるMOG-DFMの有効性、および特定のエンハンサークラスとDNA形状でDNA配列を設計することを実証します。
合計で、MOG-DFMは、マルチプロパティ誘導生体分子配列設計の強力なツールであることが証明されています。

要約(オリジナル)

Designing biological sequences that satisfy multiple, often conflicting, functional and biophysical criteria remains a central challenge in biomolecule engineering. While discrete flow matching models have recently shown promise for efficient sampling in high-dimensional sequence spaces, existing approaches address only single objectives or require continuous embeddings that can distort discrete distributions. We present Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), a general framework to steer any pretrained discrete flow matching generator toward Pareto-efficient trade-offs across multiple scalar objectives. At each sampling step, MOG-DFM computes a hybrid rank-directional score for candidate transitions and applies an adaptive hypercone filter to enforce consistent multi-objective progression. We also trained two unconditional discrete flow matching models, PepDFM for diverse peptide generation and EnhancerDFM for functional enhancer DNA generation, as base generation models for MOG-DFM. We demonstrate MOG-DFM’s effectiveness in generating peptide binders optimized across five properties (hemolysis, non-fouling, solubility, half-life, and binding affinity), and in designing DNA sequences with specific enhancer classes and DNA shapes. In total, MOG-DFM proves to be a powerful tool for multi-property-guided biomolecule sequence design.

arxiv情報

著者 Tong Chen,Yinuo Zhang,Sophia Tang,Pranam Chatterjee
発行日 2025-05-14 16:19:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM | Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design はコメントを受け付けていません

Distilling Realizable Students from Unrealizable Teachers

要約

私たちは、特権情報の下で政策蒸留を研究します。そこでは、部分的な観察のみを持つ学生ポリシーが、フルステートアクセスの教師から学習する必要があります。
重要な課題は情報の非対称性です。生徒は教師の状態空間に直接アクセスできず、分布の変化と政策の劣化につながります。
既存のアプローチは、教師を変更して、実現可能ではあるが最適ではないデモを作成するか、生徒に依存して欠落している情報を独立して検討します。どちらも非効率的です。
私たちの重要な洞察は、生徒が教師と戦略的に対話する必要があることです – 必要な場合にのみクエリをし、回復状態からリセットする – は、独自の観察スペース内で回復可能なパスにとどまることです。
2つの方法を紹介します。(i)生徒が教師に修正を照会する時期を適応的に決定する模倣学習アプローチと、(ii)効率的な探索のためのトレーニングを初期化する場所を選択する強化学習アプローチ。
シミュレートされたロボットタスクと現実世界の両方のロボットタスクの両方でメソッドを検証し、トレーニング効率と最終パフォーマンスにおける標準的な教師生徒のベースラインよりも大幅な改善を示しています。
プロジェクトWebサイトは、https://portal-cornell.github.io/critiq_retry/で入手できます。

要約(オリジナル)

We study policy distillation under privileged information, where a student policy with only partial observations must learn from a teacher with full-state access. A key challenge is information asymmetry: the student cannot directly access the teacher’s state space, leading to distributional shifts and policy degradation. Existing approaches either modify the teacher to produce realizable but sub-optimal demonstrations or rely on the student to explore missing information independently, both of which are inefficient. Our key insight is that the student should strategically interact with the teacher –querying only when necessary and resetting from recovery states –to stay on a recoverable path within its own observation space. We introduce two methods: (i) an imitation learning approach that adaptively determines when the student should query the teacher for corrections, and (ii) a reinforcement learning approach that selects where to initialize training for efficient exploration. We validate our methods in both simulated and real-world robotic tasks, demonstrating significant improvements over standard teacher-student baselines in training efficiency and final performance. The project website is available at : https://portal-cornell.github.io/CritiQ_ReTRy/

arxiv情報

著者 Yujin Kim,Nathaniel Chin,Arnav Vasudev,Sanjiban Choudhury
発行日 2025-05-14 16:45:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Distilling Realizable Students from Unrealizable Teachers はコメントを受け付けていません

Scalable Computations for Generalized Mixed Effects Models with Crossed Random Effects Using Krylov Subspace Methods

要約

混合エフェクトモデルは、階層的にグループ化された構造と高等循環性カテゴリー予測変数を使用したデータのモデリングに広く使用されています。
ただし、高次元の交差ランダム効果の場合、胆汁の分解に依存する現在の標準計算は法外に遅くなる可能性があります。
この作業では、いくつかの既存の計算ボトルネックに対処する新しいKrylovサブスペースベースの方法を提示します。
とりわけ、コンジュゲート勾配および確率的ランツォの直交法のさまざまな前処理者を理論的に分析および経験的に評価し、新しい収束結果を導き出し、予測的変異を計算するための計算効率的な方法を開発します。
シミュレートされた現実世界のデータセットを使用した広範な実験では、提案された方法は、コレスキーベースの計算よりもはるかに優れていることを示しています。たとえば、推定と予測の両方で約2桁のマグニチュードのランタイム削減を達成します。
さらに、当社のソフトウェアの実装は、デフォルト設定を使用する場合、LME4やGLMMTMBなどの最先端の実装よりも最大10’000倍高速で安定しています。
当社の方法は、高レベルのPythonおよびRパッケージを備えた無料のC ++ソフトウェアライブラリGPBoostに実装されています。

要約(オリジナル)

Mixed effects models are widely used for modeling data with hierarchically grouped structures and high-cardinality categorical predictor variables. However, for high-dimensional crossed random effects, current standard computations relying on Cholesky decompositions can become prohibitively slow. In this work, we present novel Krylov subspace-based methods that address several existing computational bottlenecks. Among other things, we theoretically analyze and empirically evaluate various preconditioners for the conjugate gradient and stochastic Lanczos quadrature methods, derive new convergence results, and develop computationally efficient methods for calculating predictive variances. Extensive experiments using simulated and real-world data sets show that our proposed methods scale much better than Cholesky-based computations, for instance, achieving a runtime reduction of approximately two orders of magnitudes for both estimation and prediction. Moreover, our software implementation is up to 10’000 times faster and more stable than state-of-the-art implementations such as lme4 and glmmTMB when using default settings. Our methods are implemented in the free C++ software library GPBoost with high-level Python and R packages.

arxiv情報

著者 Pascal Kündig,Fabio Sigrist
発行日 2025-05-14 16:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML | Scalable Computations for Generalized Mixed Effects Models with Crossed Random Effects Using Krylov Subspace Methods はコメントを受け付けていません

Machine Learning-Based Prediction of Quality Shifts on Video Streaming Over 5G

要約

Quality of Experience(QOE)は、YouTubeのようなオーバーザトップ(OTT)プラットフォームでビデオセッションをストリーミングしながら、ユーザーの満足度です。
YouTubeのQoeは、バッファリングや高品質のシフトイベントなしでスムーズなストリーミングセッションを反映しています。
YouTubeのQoEに影響を与える最も重要な要因の1つは、より高い解像度から低い解像度への頻繁なシフトであり、その逆も同様です。
これらのシフトにより、スムーズなストリーミングセッションが保証されます。
ただし、平均意見スコアが低くなる可能性があります。
たとえば、ビデオ中に1080pから480pに低下すると、継続性を維持できますが、視聴者の楽しみを減らすことができます。
時間が経つにつれて、OTTプラットフォームは、従来のサービス品質(QOS)メトリックに帯域幅、レイテンシ、スループットなどのメトリックに依存する代わりに、ユーザーエクスペリエンスを高める代替方法を探しています。
その結果、YouTubeストリーミングセッションでの品質シフトとチャネルメトリックRSRP、RSRQ、およびSNRの関係を検討します。
私たちの調査結果は、これらのチャネルメトリックがシフトと正の相関があると述べています。
したがって、リアルタイムでは、OTTはビデオストリーミングセッションを低解像度カテゴリと高解像度カテゴリに予測するためにのみ頼ることができ、ユーザーエクスペリエンスを改善するためにより多くのリソースを提供します。
従来の機械学習(ML)分類器を使用して、RSRP、RSRQ、およびSNRのみを使用しながら、77%の精度を達成しました。
超信頼性の低い低遅延ネットワークがストリーミング機能を強化すると約束する5G以降の時代には、提案された方法論を使用してOTTサービスを改善できます。

要約(オリジナル)

The Quality of Experience (QoE) is the users satisfaction while streaming a video session over an over-the-top (OTT) platform like YouTube. QoE of YouTube reflects the smooth streaming session without any buffering and quality shift events. One of the most important factors nowadays affecting QoE of YouTube is frequent shifts from higher to lower resolutions and vice versa. These shifts ensure a smooth streaming session; however, it might get a lower mean opinion score. For instance, dropping from 1080p to 480p during a video can preserve continuity but might reduce the viewers enjoyment. Over time, OTT platforms are looking for alternative ways to boost user experience instead of relying on traditional Quality of Service (QoS) metrics such as bandwidth, latency, and throughput. As a result, we look into the relationship between quality shifting in YouTube streaming sessions and the channel metrics RSRP, RSRQ, and SNR. Our findings state that these channel metrics positively correlate with shifts. Thus, in real-time, OTT can only rely on them to predict video streaming sessions into lower- and higher-resolution categories, thus providing more resources to improve user experience. Using traditional Machine Learning (ML) classifiers, we achieved an accuracy of 77-percent, while using only RSRP, RSRQ, and SNR. In the era of 5G and beyond, where ultra-reliable, low-latency networks promise enhanced streaming capabilities, the proposed methodology can be used to improve OTT services.

arxiv情報

著者 Raza Ul Mustafa,Sesha Dassanayake,Noman Ashraf
発行日 2025-05-14 16:55:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MM | Machine Learning-Based Prediction of Quality Shifts on Video Streaming Over 5G はコメントを受け付けていません

Graph-structured Small Molecule Drug Discovery Through Deep Learning: Progress, Challenges, and Opportunities

要約

それらの優れた薬物様および薬物動態特性により、小分子薬はさまざまな疾患の治療に広く使用されており、創薬の重要な要素となっています。
近年、ディープラーニング(DL)技術の急速な発展により、DLベースの小分子薬物発見方法は、従来の機械学習アプローチと比較して、予測精度、速度、複雑な分子関係モデリングの優れた性能を達成しました。
これらの進歩は、薬物スクリーニングの効率と最適化を高め、さまざまな創薬タスクに対してより正確で効果的なソリューションを提供します。
この分野の開発に貢献して、このペーパーは、近年のグラフ構造小分子薬物発見における最近の重要なタスクと代表的な手法を体系的に要約し、一般化することを目的としています。
具体的には、小分子薬物の発見とそれらの相互関係における主要なタスクの概要を提供します。
次に、6つのコアタスクを分析し、関連する方法、一般的に使用されるデータセット、および技術開発動向を要約します。
最後に、解釈可能性や分散型の一般化などの重要な課題について説明し、小分子創薬の将来の研究方向性に関する洞察を提供します。

要約(オリジナル)

Due to their excellent drug-like and pharmacokinetic properties, small molecule drugs are widely used to treat various diseases, making them a critical component of drug discovery. In recent years, with the rapid development of deep learning (DL) techniques, DL-based small molecule drug discovery methods have achieved excellent performance in prediction accuracy, speed, and complex molecular relationship modeling compared to traditional machine learning approaches. These advancements enhance drug screening efficiency and optimization and provide more precise and effective solutions for various drug discovery tasks. Contributing to this field’s development, this paper aims to systematically summarize and generalize the recent key tasks and representative techniques in graph-structured small molecule drug discovery in recent years. Specifically, we provide an overview of the major tasks in small molecule drug discovery and their interrelationships. Next, we analyze the six core tasks, summarizing the related methods, commonly used datasets, and technological development trends. Finally, we discuss key challenges, such as interpretability and out-of-distribution generalization, and offer our insights into future research directions for small molecule drug discovery.

arxiv情報

著者 Kun Li,Yida Xiong,Hongzhi Zhang,Xiantao Cai,Jia Wu,Bo Du,Wenbin Hu
発行日 2025-05-14 17:05:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM | Graph-structured Small Molecule Drug Discovery Through Deep Learning: Progress, Challenges, and Opportunities はコメントを受け付けていません

SpecSphere: Dual-Pass Spectral-Spatial Graph Neural Networks with Certified Robustness

要約

Specsphereは、$ \ Ell \ _ {0} $ Edge Flipsと$ \ Ell \ _ {\ Infty} $の両方の機能に対するすべての予測を証明する最初のデュアルパススペクトル空間GNNを紹介します。
複雑さ。
私たちのモデルは、チェビシェフ政治のスペクトル分岐を注意を引く空間分岐と結びつけ、協力的な副業MIN-MAXゲームで訓練された軽量MLPを通して表現を融合させます。
さらに、(i)均一なChebyshev近似定理、(ii)同性愛の系系統のスペクトル全体にわたる最小限の最適リスク、(iii)閉形型の堅牢性証明書、および(iv)普遍的な近似を厳密に1 wlを超えて確立します。
Specsphereは、最先端のノード分類精度を達成し、実際のベンチマークでより厳しい認定堅牢性保証を提供します。
これらの結果は、高い表現性、異種の適応、および証明可能な堅牢性が単一のスケーラブルなアーキテクチャ内で共存できることを示しています。

要約(オリジナル)

We introduce SpecSphere, the first dual-pass spectral-spatial GNN that certifies every prediction against both $\ell\_{0}$ edge flips and $\ell\_{\infty}$ feature perturbations, adapts to the full homophily-heterophily spectrum, and surpasses the expressive power of 1-Weisfeiler-Lehman while retaining linear-time complexity. Our model couples a Chebyshev-polynomial spectral branch with an attention-gated spatial branch and fuses their representations through a lightweight MLP trained in a cooperative-adversarial min-max game. We further establish (i) a uniform Chebyshev approximation theorem, (ii) minimax-optimal risk across the homophily-heterophily spectrum, (iii) closed-form robustness certificates, and (iv) universal approximation strictly beyond 1-WL. SpecSphere achieves state-of-the-art node-classification accuracy and delivers tighter certified robustness guarantees on real-world benchmarks. These results demonstrate that high expressivity, heterophily adaptation, and provable robustness can coexist within a single, scalable architecture.

arxiv情報

著者 Yoonhyuk Choi,Chong-Kwon Kim
発行日 2025-05-14 17:07:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | SpecSphere: Dual-Pass Spectral-Spatial Graph Neural Networks with Certified Robustness はコメントを受け付けていません

SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures

要約

私たちは、ロジスティック、双曲線接線、ソフトプラス、またはGELU関数などの一般的に使用される連続的に微分可能な活性化関数を使用して、完全に接続されたフィードフォワードニューラルネットワークの損失景観の勾配フローを研究します。
勾配の流れが臨界点に収束するか、無限に分岐する一方で、損失が漸近臨界値に収束することを証明します。
さらに、最適レベルを超える最大$ \ varepsilon $で初期化された勾配フローの損失値が収束するように、しきい値$ \ varepsilon> 0 $の存在を証明します。
多項式ターゲット機能と十分に大きなアーキテクチャとデータセットの場合、最適な損失値がゼロであり、漸近的にのみ実現できることを証明します。
この設定から、私たちは、十分に良好な初期化を伴う勾配の流れが無限に分岐することを推定します。
私たちの証拠は、Oミニマル構造のジオメトリに大きく依存しています。
これらの理論的発見を数値実験で確認し、調査を実世界のシナリオに拡張し、類似の動作を観察します。

要約(オリジナル)

We study gradient flows for loss landscapes of fully connected feed forward neural networks with commonly used continuously differentiable activation functions such as the logistic, hyperbolic tangent, softplus or GELU function. We prove that the gradient flow either converges to a critical point or diverges to infinity while the loss converges to an asymptotic critical value. Moreover, we prove the existence of a threshold $\varepsilon>0$ such that the loss value of any gradient flow initialized at most $\varepsilon$ above the optimal level converges to it. For polynomial target functions and sufficiently big architecture and data set, we prove that the optimal loss value is zero and can only be realized asymptotically. From this setting, we deduce our main result that any gradient flow with sufficiently good initialization diverges to infinity. Our proof heavily relies on the geometry of o-minimal structures. We confirm these theoretical findings with numerical experiments and extend our investigation to real-world scenarios, where we observe an analogous behavior.

arxiv情報

著者 Julian Kranz,Davide Gallon,Steffen Dereich,Arnulf Jentzen
発行日 2025-05-14 17:15:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 03C64, 03C98, 26B40, 68T07, cs.LG, math.LO, math.OC, stat.ML | SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures はコメントを受け付けていません