Scalable Thermodynamic Second-order Optimization

要約

多くのハードウェア提案は、AIワークロードの推論を加速することを目的としています。
AIモデルの迅速なトレーニングの大きな社会的影響にもかかわらず、トレーニングのハードウェア加速にはあまり注意が払われていません。
熱力学的コンピューターなどの物理ベースのコンピューターは、AIトレーニングアルゴリズムで重要なプリミティブを解く効率的な手段を提供します。
通常、デジタルハードウェアの計算上外れ(たとえば、高価なマトリックスの反転による)のオプティマイザーは、物理ベースのハードウェアでロック解除できます。
この作業では、熱力学コンピューターを使用して、Kronecker-Factored近似曲率(K-FAC)と呼ばれる一般的な2次オプティマイザーを加速するためのスケーラブルなアルゴリズムを提案します。
漸近の複雑さ分析は、アルゴリズムが$ n $、レイヤーあたりのニューロンの数が増加すると、アルゴリズムを増やすことを予測しています。
数値実験は、重要な量子化ノイズの下でも、二次最適化の利点を保存できることを示しています。
最後に、現実的なハードウェアの特性に基づいて、大規模なビジョンとグラフの問題のかなりのスピードアップを予測します。

要約(オリジナル)

Many hardware proposals have aimed to accelerate inference in AI workloads. Less attention has been paid to hardware acceleration of training, despite the enormous societal impact of rapid training of AI models. Physics-based computers, such as thermodynamic computers, offer an efficient means to solve key primitives in AI training algorithms. Optimizers that normally would be computationally out-of-reach (e.g., due to expensive matrix inversions) on digital hardware could be unlocked with physics-based hardware. In this work, we propose a scalable algorithm for employing thermodynamic computers to accelerate a popular second-order optimizer called Kronecker-factored approximate curvature (K-FAC). Our asymptotic complexity analysis predicts increasing advantage with our algorithm as $n$, the number of neurons per layer, increases. Numerical experiments show that even under significant quantization noise, the benefits of second-order optimization can be preserved. Finally, we predict substantial speedups for large-scale vision and graph problems based on realistic hardware characteristics.

arxiv情報

著者 Kaelan Donatella,Samuel Duffield,Denis Melanson,Maxwell Aifer,Phoebe Klett,Rajath Salegame,Zach Belateche,Gavin Crooks,Antonio J. Martinez,Patrick J. Coles
発行日 2025-02-12 17:44:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.LG | Scalable Thermodynamic Second-order Optimization はコメントを受け付けていません

Robustly Learning Monotone Generalized Linear Models via Data Augmentation

要約

ガウス分布の下で、不可知論のモデルで一般化された線形モデル(GLM)を学習するタスクを研究します。
\ textit {Any} Monotone Lipschitzのアクティッツの一定因子近似を達成する最初の多項式時間アルゴリズムを指定します。
以前の定数因子GLM学習者は、実質的に小さいクラスの活性化に成功します。
私たちの研究は、古典的なGlmtronアルゴリズムの堅牢な対応物を開発することにより、よく知られている未解決の問題を解決します(Kakade et al。、2011)。
堅牢な学習者は、より一般的に適用され、固定$ \ Zeta> 0 $に対して、限られた$(2+ \ Zeta)$ -Momentsを含むすべての単調な活性化を網羅しています – 本質的に必要な条件。
結果を得るために、ガウスノイズインジェクションを減少させて新しいデータ増強技術を活用し、他の設定で役立つ可能性のある多くの構造結果を証明します。

要約(オリジナル)

We study the task of learning Generalized Linear models (GLMs) in the agnostic model under the Gaussian distribution. We give the first polynomial-time algorithm that achieves a constant-factor approximation for \textit{any} monotone Lipschitz activation. Prior constant-factor GLM learners succeed for a substantially smaller class of activations. Our work resolves a well-known open problem, by developing a robust counterpart to the classical GLMtron algorithm (Kakade et al., 2011). Our robust learner applies more generally, encompassing all monotone activations with bounded $(2+\zeta)$-moments, for any fixed $\zeta>0$ — a condition that is essentially necessary. To obtain our results, we leverage a novel data augmentation technique with decreasing Gaussian noise injection and prove a number of structural results that may be useful in other settings.

arxiv情報

著者 Nikos Zarifis,Puqian Wang,Ilias Diakonikolas,Jelena Diakonikolas
発行日 2025-02-12 17:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.ST, stat.TH | Robustly Learning Monotone Generalized Linear Models via Data Augmentation はコメントを受け付けていません

Continuous Cardiac Arrest Prediction in ICU using PPG Foundation Model

要約

不利な急性健康イベントを追跡および予測するための非侵襲的患者監視は、研究の新たな分野です。
院内心停止(IHCA)予測を追求します。単一チャネルフィンガーフォト植物学(PPG)シグナルのみを使用しています。
提案されている2段階モデル​​特徴抽出装置アグレゲーターネットワーク(FEAN)は、シーケンシャル分類モデルで積み重ねられた事前に訓練されたPPGファンデーションモデル(最大10億サイズのPPG-GPT)からの強力な表現を活用しています。
最新の1時間と(最大)24時間履歴を使用してそれぞれ決定を下す2つのFeanバリエーション( ‘1H’、 ‘fh’)を提案します。
私たちの研究は、IHCA予測の結果を最初に提示し、ICU患者はユニモーダル(連続PPG信号)波形の深い表現のみを使用しています。
私たちの最高のモデルを使用すると、CAイベント開始の前に24〜Hの予測ウィンドウを超える平均0.79 AUROCを取得します。
また、潜在空間における患者の健康軌跡の建築チューニングとPACMAPの視覚化を通じて、モデルの包括的な分析を提供します。

要約(オリジナル)

Non-invasive patient monitoring for tracking and predicting adverse acute health events is an emerging area of research. We pursue in-hospital cardiac arrest (IHCA) prediction using only single-channel finger photoplethysmography (PPG) signals. Our proposed two-stage model Feature Extractor-Aggregator Network (FEAN) leverages powerful representations from pre-trained PPG foundation models (PPG-GPT of size up to 1 Billion) stacked with sequential classification models. We propose two FEAN variants (‘1H’, ‘FH’) which use the latest one-hour and (max) 24-hour history to make decisions respectively. Our study is the first to present IHCA prediction results in ICU patients using only unimodal (continuous PPG signal) waveform deep representations. With our best model, we obtain an average of 0.79 AUROC over 24~h prediction window before CA event onset with our model peaking performance at 0.82 one hour before CA. We also provide a comprehensive analysis of our model through architectural tuning and PaCMAP visualization of patient health trajectory in latent space.

arxiv情報

著者 Saurabh Kataria,Ran Xiao,Timothy Ruchti,Matthew Clark,Jiaying Lu,Randall J. Lee,Jocelyn Grunwell,Xiao Hu
発行日 2025-02-12 18:01:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Continuous Cardiac Arrest Prediction in ICU using PPG Foundation Model はコメントを受け付けていません

Wrapped Gaussian on the manifold of Symmetric Positive Definite Matrices

要約

循環および非フラットのデータ分布は、データサイエンスの多様なドメイン全体で一般的ですが、それらの特定の幾何学的構造は、しばしば機械学習フレームワークでは十分に活用されていません。
このようなデータの基礎となるジオメトリを考慮するための原則的なアプローチは、特に広範なガウス分布のように統計モデルを拡張する場合に極めて重要です。
この作業では、情報ジオメトリの重要な焦点である対称陽性の明確なマトリックスの多様体に焦点を当てることにより、これらの問題に取り組みます。
指数マップを活用することにより、非等方性ラップされたガウスを導入しました。この分布の理論的特性を導き出し、パラメーター推定のための最尤フレームワークを提案します。
さらに、確立されたレンズを介してSPDの確立された分類子を再解釈し、ラップされたガウスモデルに基づいて新しい分類子を導入します。
合成および実世界のデータセットの実験は、この幾何学的認識分布の堅牢性と柔軟性を示しており、マニホールドベースのデータ分析を進める可能性を強調しています。
この作業は、古典的な機械学習と統計的方法をより複雑で構造化されたデータに拡張するための基礎を築きます。

要約(オリジナル)

Circular and non-flat data distributions are prevalent across diverse domains of data science, yet their specific geometric structures often remain underutilized in machine learning frameworks. A principled approach to accounting for the underlying geometry of such data is pivotal, particularly when extending statistical models, like the pervasive Gaussian distribution. In this work, we tackle those issue by focusing on the manifold of symmetric positive definite matrices, a key focus in information geometry. We introduced a non-isotropic wrapped Gaussian by leveraging the exponential map, we derive theoretical properties of this distribution and propose a maximum likelihood framework for parameter estimation. Furthermore, we reinterpret established classifiers on SPD through a probabilistic lens and introduce new classifiers based on the wrapped Gaussian model. Experiments on synthetic and real-world datasets demonstrate the robustness and flexibility of this geometry-aware distribution, underscoring its potential to advance manifold-based data analysis. This work lays the groundwork for extending classical machine learning and statistical methods to more complex and structured data.

arxiv情報

著者 Thibault de Surrel,Fabien Lotte,Sylvain Chevallier,Florian Yger
発行日 2025-02-12 18:11:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ME, stat.ML, stat.TH | Wrapped Gaussian on the manifold of Symmetric Positive Definite Matrices はコメントを受け付けていません

Mathematical Data Science

要約

機械学習は、新しい数学構造を発見するのに役立ちますか?
この記事では、「数学データサイエンス」と呼ぶことができるこれを行うアプローチについて説明します。
このパラダイムでは、データセットを作成し、機械学習実験と解釈を行うことにより、個別にではなく、集合的に数学的オブジェクトを研究しています。
概要の後、2つのケーススタディを提示します。数の理論のつぶやきと、表現理論と組み合わせのクロネッカー係数に関連するパーティションの負荷の負荷です。

要約(オリジナル)

Can machine learning help discover new mathematical structures? In this article we discuss an approach to doing this which one can call ‘mathematical data science’. In this paradigm, one studies mathematical objects collectively rather than individually, by creating datasets and doing machine learning experiments and interpretations. After an overview, we present two case studies: murmurations in number theory and loadings of partitions related to Kronecker coefficients in representation theory and combinatorics.

arxiv情報

著者 Michael R. Douglas,Kyu-Hwan Lee
発行日 2025-02-12 18:15:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.HO | Mathematical Data Science はコメントを受け付けていません

Forecasting Drought Using Machine Learning in California

要約

干ばつは、カリフォルニアでは頻繁で費用のかかる自然災害であり、農業生産と水資源の利用可能性、特に地下水に大きな悪影響を及ぼします。
この研究では、カリフォルニアでの米国の干ばつモニター分類を予測するために、さまざまな機械学習アプローチを適用するパフォーマンスを調査しました。
4つのアプローチが使用されました:畳み込みニューラルネットワーク(CNN)、ランダムフォレスト、XGBoost、および長期記憶(LSTM)再発性ニューラルネットワーク、およびベースライン持続モデルと比較しました。
マクロF1バイナリ分類メトリックを使用して、重度の干ばつ(USDM干ばつカテゴリD2以上)を予測するモデルのパフォーマンスを評価しました。
LSTMモデルは、トップパフォーマーとして登場し、Xgboost、CNN、およびランダムフォレストが続きました。
郡レベルでの結果のさらなる評価は、LSTMモデルがより一貫した干ばつパターンを備えた郡で最も効果的であり、深刻な干ばつがより一般的であり、LSTMモデルが干ばつスコアが急速に増加した場合に悪化することを示唆しています。
30週間の履歴データを利用して、LSTMモデルは、0〜5のスケールで干ばつカテゴリの半分未満に相当する平均絶対誤差(MAE)が0.33の平均絶対誤差(MAE)で12週間の干ばつスコアを予測しました。
LSTMは0.9のマクロF1スコアを達成し、深刻な干ばつ状態のバイナリ分類における高精度を示しています。
数週間のさまざまなウィンドウと将来の地平線のサイズの評価は、少なくとも24週間のデータが最高のパフォーマンスをもたらすことを示唆しており、特に8週間未満の短い地平線のサイズで最高のパフォーマンスを発揮します。

要約(オリジナル)

Drought is a frequent and costly natural disaster in California, with major negative impacts on agricultural production and water resource availability, particularly groundwater. This study investigated the performance of applying different machine learning approaches to predicting the U.S. Drought Monitor classification in California. Four approaches were used: a convolutional neural network (CNN), random forest, XGBoost, and long short term memory (LSTM) recurrent neural network, and compared to a baseline persistence model. We evaluated the models’ performance in predicting severe drought (USDM drought category D2 or higher) using a macro F1 binary classification metric. The LSTM model emerged as the top performer, followed by XGBoost, CNN, and random forest. Further evaluation of our results at the county level suggested that the LSTM model would perform best in counties with more consistent drought patterns and where severe drought was more common, and the LSTM model would perform worse where drought scores increased rapidly. Utilizing 30 weeks of historical data, the LSTM model successfully forecasted drought scores for a 12-week period with a Mean Absolute Error (MAE) of 0.33, equivalent to less than half a drought category on a scale of 0 to 5. Additionally, the LSTM achieved a macro F1 score of 0.9, indicating high accuracy in binary classification for severe drought conditions. Evaluation of different window and future horizon sizes in weeks suggested that at least 24 weeks of data would result in the best performance, with best performance for shorter horizon sizes, particularly less than eight weeks.

arxiv情報

著者 Nan K. Li,Angela Chang,David Sherman
発行日 2025-02-12 18:20:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Forecasting Drought Using Machine Learning in California はコメントを受け付けていません

Tensor-Var: Variational Data Assimilation in Tensor Product Feature Space

要約

変動データ同化は、数値モデルを観測データに適合するコスト関数を最小化することにより、動的システムの状態を推定します。
広く使用されているメソッド、4次元変異同化(4D-VAR)には、2つの主要な課題があります。(1)複雑な非線形システムに計算的に要求し、(2)完全に知られていない状態観測マッピングに依存しています。
ディープラーニング(DL)は、これらの課題に対処するためのより表現力のある効率的なモデル近似器として使用されています。
ただし、そのようなモデルを4D-VARに統合することは、固有の非線形性と同化結果の一貫性のための理論的保証の欠如のために依然として困難なままです。
この論文では、カーネル条件平均埋め込み(CME)を使用してこれらの課題に対処するためにテンソルVARを提案します。
テンソルVARは、システムのダイナミクスと状態観測マッピングを線形演算子として特徴付けることにより、最適化効率を向上させ、特徴空間で凸コスト関数につながります。
さらに、私たちの方法は、CMEを4D-VARに組み込むための新しい視点を提供し、元のスペースと特徴スペース間の一貫した同化結果の理論的保証を提供します。
スケーラビリティを向上させるために、テンソルVARフレームワーク内でニューラルネットワークを使用して深い機能(DFS)を学習する方法を提案します。
カオスシステムとリアルタイムの観測によるグローバルな気象予測に関する実験は、テンソルVARが、静的な3D-VAR法に匹敵する効率を達成しながら、従来およびDLハイブリッド4D-VARベースラインよりも精度を上回ることを示しています。

要約(オリジナル)

Variational data assimilation estimates the dynamical system states by minimizing a cost function that fits the numerical models with observational data. The widely used method, four-dimensional variational assimilation (4D-Var), has two primary challenges: (1) computationally demanding for complex nonlinear systems and (2) relying on state-observation mappings, which are often not perfectly known. Deep learning (DL) has been used as a more expressive class of efficient model approximators to address these challenges. However, integrating such models into 4D-Var remains challenging due to their inherent nonlinearities and the lack of theoretical guarantees for consistency in assimilation results. In this paper, we propose Tensor-Var to address these challenges using kernel Conditional Mean Embedding (CME). Tensor-Var improves optimization efficiency by characterizing system dynamics and state-observation mappings as linear operators, leading to a convex cost function in the feature space. Furthermore, our method provides a new perspective to incorporate CME into 4D-Var, offering theoretical guarantees of consistent assimilation results between the original and feature spaces. To improve scalability, we propose a method to learn deep features (DFs) using neural networks within the Tensor-Var framework. Experiments on chaotic systems and global weather prediction with real-time observations show that Tensor-Var outperforms conventional and DL hybrid 4D-Var baselines in accuracy while achieving efficiency comparable to the static 3D-Var method.

arxiv情報

著者 Yiming Yang,Xiaoyuan Cheng,Daniel Giles,Sibo Cheng,Yi He,Xiao Xue,Boli Chen,Yukun Hu
発行日 2025-02-12 18:22:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Tensor-Var: Variational Data Assimilation in Tensor Product Feature Space はコメントを受け付けていません

Matcha: Mitigating Graph Structure Shifts with Test-Time Adaptation

要約

グラフニューラルネットワーク(GNNS)は、分布シフトに対して脆弱であることが知られています。
最近、テスト時間適応(TTA)は、ソースドメインを再アクセスすることなく、事前に訓練されたモデルをターゲットドメインに適応させる能力により、注目を集めています。
ただし、既存のTTAアルゴリズムは、サンプルが独立している視覚タスクの属性シフト用に主に設計されています。
これらのメソッドは、構造のシフトを経験するグラフデータでは不十分に機能します。ここで、ノード接続性はソースグラフとターゲットグラフ間で異なります。
このパフォーマンスのギャップは、ノード属性シフトとグラフ構造シフトの明確な影響に至ります。後者は、ノード表現の品質を大幅に低下させ、異なるノードカテゴリ間の境界を曖昧にします。
グラフの構造シフトに対処するために、GNNSのHTOP凝集パラメーターを調整することにより、構造シフトへの効果的かつ効率的な適応のために設計された革新的なフレームワークである抹茶を提案します。
表現品質を向上させるために、さまざまなノードカテゴリの明確なクラスターの形成を促進するために、予測に基づいたクラスタリング損失を設計します。
さらに、抹茶は既存のTTAアルゴリズムとシームレスに統合され、構造と属性のシフトを組み合わせた全体的なパフォーマンスを改善しながら、属性シフトを効果的に処理できます。
合成データセットと現実世界の両方のデータセットに対する抹茶の有効性を検証し、構造と属性のシフトのさまざまな組み合わせにわたってその堅牢性を示します。
私たちのコードは、https://github.com/baowenxuan/matchaで入手できます。

要約(オリジナル)

Powerful as they are, graph neural networks (GNNs) are known to be vulnerable to distribution shifts. Recently, test-time adaptation (TTA) has attracted attention due to its ability to adapt a pre-trained model to a target domain, without re-accessing the source domain. However, existing TTA algorithms are primarily designed for attribute shifts in vision tasks, where samples are independent. These methods perform poorly on graph data that experience structure shifts, where node connectivity differs between source and target graphs. We attribute this performance gap to the distinct impact of node attribute shifts versus graph structure shifts: the latter significantly degrades the quality of node representations and blurs the boundaries between different node categories. To address structure shifts in graphs, we propose Matcha, an innovative framework designed for effective and efficient adaptation to structure shifts by adjusting the htop-aggregation parameters in GNNs. To enhance the representation quality, we design a prediction-informed clustering loss to encourage the formation of distinct clusters for different node categories. Additionally, Matcha seamlessly integrates with existing TTA algorithms, allowing it to handle attribute shifts effectively while improving overall performance under combined structure and attribute shifts. We validate the effectiveness of Matcha on both synthetic and real-world datasets, demonstrating its robustness across various combinations of structure and attribute shifts. Our code is available at https://github.com/baowenxuan/Matcha .

arxiv情報

著者 Wenxuan Bao,Zhichen Zeng,Zhining Liu,Hanghang Tong,Jingrui He
発行日 2025-02-12 18:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Matcha: Mitigating Graph Structure Shifts with Test-Time Adaptation はコメントを受け付けていません

Concentration Inequalities for the Stochastic Optimization of Unbounded Objectives with Application to Denoising Score Matching

要約

確率的最適化問題の大規模なクラスの統計的誤差を結びつける新しい濃度の不平等を導き出し、結合されていない目的関数の場合に焦点を当てます。
私たちの派生物は、次のツールを利用します。1)サンプルに依存する1つの成分の差境界に基づいたMcDiarmidの不平等の新しい形式は、結合されていない機能の大量の結果をもたらす新しい統一法則につながります。
2)適切なローカルリプシッツプロパティを満たす機能のファミリーに拘束されたラデマッハーの複雑さ。
これらの結果の適用として、データ分布がサポートを制限している場合でも、固定されていない目的関数を検討する必要があるアプリケーションであるアプリケーションであるアプリケーションは、統計スコアマッチング(DSM)を導き出します。
さらに、我々の結果は、補助ガウスランダム変数を使用するDSMのように、トレーニングデータに加えて、簡単にサンプリングされた補助ランダム変数を使用するアルゴリズムでサンプル再利用の利点を確立します。

要約(オリジナル)

We derive novel concentration inequalities that bound the statistical error for a large class of stochastic optimization problems, focusing on the case of unbounded objective functions. Our derivations utilize the following tools: 1) A new form of McDiarmid’s inequality that is based on sample dependent one component difference bounds and which leads to a novel uniform law of large numbers result for unbounded functions. 2) A Rademacher complexity bound for families of functions that satisfy an appropriate local Lipschitz property. As an application of these results, we derive statistical error bounds for denoising score matching (DSM), an application that inherently requires one to consider unbounded objective functions, even when the data distribution has bounded support. In addition, our results establish the benefit of sample reuse in algorithms that employ easily sampled auxiliary random variables in addition to the training data, e.g., as in DSM, which uses auxiliary Gaussian random variables.

arxiv情報

著者 Jeremiah Birrell
発行日 2025-02-12 18:30:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Concentration Inequalities for the Stochastic Optimization of Unbounded Objectives with Application to Denoising Score Matching はコメントを受け付けていません

Sample complexity of data-driven tuning of model hyperparameters in neural networks with structured parameter-dependent dual function

要約

最新の機械学習アルゴリズム、特に深い学習ベースの手法では、通常、最高のパフォーマンスを実現するために慎重なハイパーパラメーターチューニングが含まれます。
ベイジアンの最適化や、この骨の折れる集中的なタスクを自動化するためのランダム検索ベースのアプローチなどの実用的な手法に強い関心が急増しているにもかかわらず、深いニューラルネットワークのハイパーパラメーターを調整する基本的な学習理論的複雑さはよく理解されていません。
この明白なギャップに触発されて、最近導入されたデータ駆動型の設定を通じて、深い学習におけるハイパーパラメーターの調整の複雑さの正式な研究を開始します。
一連の深い学習タスクがあると仮定しており、タスクの分布よりも平均してハイパーパラメーターを調整する必要があります。
主な難しさは、ハイパーパラメーターの関数としてのユーティリティ関数が非常に揮発性であり、さらに、モデルパラメーターの最適化問題によって暗黙的に与えられることです。
この課題に取り組むために、ハイパーパラメーターを変化させる際に、固定問題インスタンスでユーティリティ関数の不連続性と振動を特徴付ける新しい手法を紹介します。
私たちの分析は、微分/代数幾何学や制約された最適化からのツールなど、微妙な概念に依存しています。
これを使用して、対応するユーティリティ関数ファミリーの学習理論的複雑さが境界を尽くしていることを示すことができます。
結果をインスタンス化し、具体的なアプリケーションのサンプルの複雑さの境界を提供し、神経活性化機能を補間し、グラフニューラルネットワークのカーネルパラメーターを設定するハイパーパラメーターを調整します。

要約(オリジナル)

Modern machine learning algorithms, especially deep learning based techniques, typically involve careful hyperparameter tuning to achieve the best performance. Despite the surge of intense interest in practical techniques like Bayesian optimization and random search based approaches to automating this laborious and compute intensive task, the fundamental learning theoretic complexity of tuning hyperparameters for deep neural networks is poorly understood. Inspired by this glaring gap, we initiate the formal study of hyperparameter tuning complexity in deep learning through a recently introduced data driven setting. We assume that we have a series of deep learning tasks, and we have to tune hyperparameters to do well on average over the distribution of tasks. A major difficulty is that the utility function as a function of the hyperparameter is very volatile and furthermore, it is given implicitly by an optimization problem over the model parameters. To tackle this challenge, we introduce a new technique to characterize the discontinuities and oscillations of the utility function on any fixed problem instance as we vary the hyperparameter; our analysis relies on subtle concepts including tools from differential/algebraic geometry and constrained optimization. This can be used to show that the learning theoretic complexity of the corresponding family of utility functions is bounded. We instantiate our results and provide sample complexity bounds for concrete applications tuning a hyperparameter that interpolates neural activation functions and setting the kernel parameter in graph neural networks.

arxiv情報

著者 Maria-Florina Balcan,Anh Tuan Nguyen,Dravyansh Sharma
発行日 2025-02-12 18:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Sample complexity of data-driven tuning of model hyperparameters in neural networks with structured parameter-dependent dual function はコメントを受け付けていません