Barrier Certificates for Unknown Systems with Latent States and Polynomial Dynamics using Bayesian Inference

要約

動的システムの安全性の認証は重要ですが、バリア証明書 – システムの軌跡が安全な地域内に残っていることを確認するために広く使用されています – 通常、明示的なシステムモデルが必要です。
ダイナミクスが不明な場合、代わりにデータ駆動型の方法を使用できますが、有効な証明書を取得するには、厳密な不確実性の定量化が必要です。
この目的のために、既存の方法は通常、フルステートの測定に依存しており、適用性を制限します。
このペーパーでは、潜在状態と多項式ダイナミクスを備えた未知のシステムのバリア証明書を合成するための新しいアプローチを提案します。
ベイジアンフレームワークが採用されています。ここでは、ターゲットを絞った限界メトロポリスハスティングサンプラーを介して入出力データを使用して、状態空間表現以前が更新されます。
結果として得られるサンプルは、平面合計プログラムを通じて候補バリア証明書を構築するために使用されます。
候補者が追加のサンプルのテストセットで必要な条件を満たしている場合、それは高い確率のある真の未知のシステムにも有効であることが示されています。
アプローチとその確率的保証は、数値シミュレーションを通じて示されています。

要約(オリジナル)

Certifying safety in dynamical systems is crucial, but barrier certificates – widely used to verify that system trajectories remain within a safe region – typically require explicit system models. When dynamics are unknown, data-driven methods can be used instead, yet obtaining a valid certificate requires rigorous uncertainty quantification. For this purpose, existing methods usually rely on full-state measurements, limiting their applicability. This paper proposes a novel approach for synthesizing barrier certificates for unknown systems with latent states and polynomial dynamics. A Bayesian framework is employed, where a prior in state-space representation is updated using input-output data via a targeted marginal Metropolis-Hastings sampler. The resulting samples are used to construct a candidate barrier certificate through a sum-of-squares program. It is shown that if the candidate satisfies the required conditions on a test set of additional samples, it is also valid for the true, unknown system with high probability. The approach and its probabilistic guarantees are illustrated through a numerical simulation.

arxiv情報

著者 Robert Lefringhausen,Sami Leon Noel Aziz Hanna,Elias August,Sandra Hirche
発行日 2025-04-02 15:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, stat.ML | Barrier Certificates for Unknown Systems with Latent States and Polynomial Dynamics using Bayesian Inference はコメントを受け付けていません

Inference of hidden common driver dynamics by anisotropic self-organizing neural networks

要約

2つの駆動動的システムからの時系列データの分析に基づいて、隠された共通ドライバーの基礎となるダイナミクスを推測するための新しいアプローチを導入しています。
推論は、時期の埋め込み、観測されたシステムの固有の次元の推定、およびそれらの相互次元に依存しています。
私たちのアプローチの重要な要素は、コホネンの自己組織化マップに適用される新しい異方性トレーニング手法であり、駆動システムのアトラクタを効果的に学習し、それを自己ダイナミックと共有ダイナミクスに対応するサブマニホールドに分離します。
私たちの方法の有効性を実証するために、セットアップで異なる混oticとしたマップを使用してシミュレートされた実験を実施しました。そこでは、2つの混oticとしたマップが非線形結合を備えた3番目のマップによって駆動されました。
推定された時系列は、観測されたシステムとは対照的に、実際の隠された共通ドライバーの時系列と高い相関を示しました。
再構成の品質を比較し、PCAやICAなどの線形法を含む観察された時系列の背後にある一般的な特徴を見つけることを目的としたいくつかの他の方法や、動的成分分析、標準相関分析、さらには標準相関分析などの非線形法を見つけることを目的としていることが示されています。

要約(オリジナル)

We are introducing a novel approach to infer the underlying dynamics of hidden common drivers, based on analyzing time series data from two driven dynamical systems. The inference relies on time-delay embedding, estimation of the intrinsic dimension of the observed systems, and their mutual dimension. A key component of our approach is a new anisotropic training technique applied to Kohonen’s self-organizing map, which effectively learns the attractor of the driven system and separates it into submanifolds corresponding to the self-dynamics and shared dynamics. To demonstrate the effectiveness of our method, we conducted simulated experiments using different chaotic maps in a setup, where two chaotic maps were driven by a third map with nonlinear coupling. The inferred time series exhibited high correlation with the time series of the actual hidden common driver, in contrast to the observed systems. The quality of our reconstruction were compared and shown to be superior to several other methods that are intended to find the common features behind the observed time series, including linear methods like PCA and ICA as well as nonlinear methods like dynamical component analysis, canonical correlation analysis and even deep canonical correlation analysis.

arxiv情報

著者 Zsigmond Benkő,Marcell Stippinger,Zoltán Somogyvári
発行日 2025-04-02 15:17:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Inference of hidden common driver dynamics by anisotropic self-organizing neural networks はコメントを受け付けていません

Groningen: Spatial Prediction of Rock Gas Saturation by Leveraging Selected and Augmented Well and Seismic Data with Classifier Ensembles

要約

この論文では、巨大なグローニンゲンガス畑の例で分類器アンサンブル法を使用した岩石飽和確率の空間予測の概念実証を提示します。
1481の地震フィールド属性を生成し、63の重要な属性を選択する段階について説明します。
提案された井戸と地震データの増強方法の有効性が示されており、トレーニングサンプルが9回増加しました。
42ウェルのテストサンプル(ブラインドウェルテスト)では、結果は分類器のアンサンブルを予測する際の良好な精度を示しています。マシューズ相関係数は0.7689、「ガス貯水池」クラスのF1スコアは0.7949です。
フィールド内および隣接する領域内のガス貯水池の厚さの予測が行われます。

要約(オリジナル)

This paper presents a proof of concept for spatial prediction of rock saturation probability using classifier ensemble methods on the example of the giant Groningen gas field. The stages of generating 1481 seismic field attributes and selecting 63 significant attributes are described. The effectiveness of the proposed method of augmentation of well and seismic data is shown, which increased the training sample by 9 times. On a test sample of 42 wells (blind well test), the results demonstrate good accuracy in predicting the ensemble of classifiers: the Matthews correlation coefficient is 0.7689, and the F1-score for the ‘gas reservoir’ class is 0.7949. Prediction of gas reservoir thicknesses within the field and adjacent areas is made.

arxiv情報

著者 Dmitry Ivlev
発行日 2025-04-02 15:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.geo-ph | Groningen: Spatial Prediction of Rock Gas Saturation by Leveraging Selected and Augmented Well and Seismic Data with Classifier Ensembles はコメントを受け付けていません

Autonomous optical navigation for DESTINY+: Enhancing misalignment robustness in flyby observations with a rotating telescope

要約

Destiny+は、Phaethonを含む複数の小惑星を飛ばすための今後のJaxa Epsilonミディアムクラスのミッションです。
小惑星フライバイ観測機器として、TCAPという名前の単一軸回転が機械的に機械的に能力的に能力的に能力的に能力があるため、宇宙船に取り付けられて、フライバイ中のターゲット小惑星を追跡および観察します。
回転望遠鏡を使用した過去のフライバイミッションのように、TCAPは、最も近いアプローチフェーズ中に自律光学ナビゲーションのナビゲーションカメラとしても使用されます。
ナビゲーションの精度の劣化を軽減するために、過去のミッションは、光学ナビゲーションを開始する前にナビゲーションカメラのアライメントのキャリブレーションを実行しました。
ただし、このようなキャリブレーションには、完了するのに大きな運用時間が必要であり、操作シーケンスに制約を課します。
上記の背景から、Destiny+チームは、TCAPのアライメントエラーが残ることにより、運用コストを削減する可能性を研究してきました。
このホワイトペーパーでは、この文脈で提案されている回転望遠鏡の不整合に堅牢に堅牢になった自律光学ナビゲーションアルゴリズムについて説明します。
提案された方法では、望遠鏡の不整合は、フライバイターゲットに対する宇宙船の軌道と同時に推定されます。
ミスアライメントと観測値の間の非線形性に対処するために、提案された方法は、過去の研究で広く使用されている拡張されたカルマンフィルターの代わりに、無香料のカルマンフィルターを利用します。
提案された方法は、PCの数値シミュレーションとループ中のハードウェアシミュレーションで評価され、Phaethon FlybyをDestiny+ Missionで例として採用しました。
検証結果は、提案された方法が、オンボードコンピューターに適した合理的な計算コストで、光学ナビゲーションの精度の誤った誘発性の分解を軽減できることを示唆しています。

要約(オリジナル)

DESTINY+ is an upcoming JAXA Epsilon medium-class mission to flyby multiple asteroids including Phaethon. As an asteroid flyby observation instrument, a telescope mechanically capable of single-axis rotation, named TCAP, is mounted on the spacecraft to track and observe the target asteroids during flyby. As in past flyby missions utilizing rotating telescopes, TCAP is also used as a navigation camera for autonomous optical navigation during the closest-approach phase. To mitigate the degradation of the navigation accuracy, past missions performed calibration of the navigation camera’s alignment before starting optical navigation. However, such calibration requires significant operational time to complete and imposes constraints on the operation sequence. From the above background, the DESTINY+ team has studied the possibility of reducing operational costs by allowing TCAP alignment errors to remain. This paper describes an autonomous optical navigation algorithm robust to the misalignment of rotating telescopes, proposed in this context. In the proposed method, the misalignment of the telescope is estimated simultaneously with the spacecraft’s orbit relative to the flyby target. To deal with the nonlinearity between the misalignment and the observation value, the proposed method utilizes the unscented Kalman filter, instead of the extended Kalman filter widely used in past studies. The proposed method was evaluated with numerical simulations on a PC and with hardware-in-the-loop simulation, taking the Phaethon flyby in the DESTINY+ mission as an example. The validation results suggest that the proposed method can mitigate the misalignment-induced degradation of the optical navigation accuracy with reasonable computational costs suited for onboard computers.

arxiv情報

著者 Takayuki Hosonuma,Takeshi Miyabara,Naoya Ozaki,Ko Ishibashi,Yuta Suzaki,Peng Hong,Masayuki Ohta,Takeshi Takashima
発行日 2025-04-02 15:42:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.EP, astro-ph.IM, cs.LG | Autonomous optical navigation for DESTINY+: Enhancing misalignment robustness in flyby observations with a rotating telescope はコメントを受け付けていません

A Randomized Zeroth-Order Hierarchical Framework for Heterogeneous Federated Learning

要約

フェデレートラーニング(FL)の不均一性は、モデルのパフォーマンスと収束に大きな影響を与える重要で挑戦的な側面です。
この論文では、階層的最適化問題として不均一なFLを策定することにより、新しいフレームワークを提案します。
この新しいフレームワークは、バイレベル定式化を通じてローカルおよびグローバルなトレーニングプロセスの両方をキャプチャし、次のことが可能です。(i)パーソナライズされた学習フレームワークを通じてクライアントの不均一性に対処する。
(ii)サーバーの側でトレーニング前のプロセスをキャプチャする。
(iii)非標準凝集を通じてグローバルモデルの更新。
(iv)非同一のローカルステップを許可する。
(v)クライアントのローカル制約のキャプチャ。
サーバーエージェントと個々のクライアントエージェントの両方に対して非症状の収束保証を提供する暗黙のゼロオーダーFLメソッド(ZO-HFL)を設計および分析し、ほとんど確実な意味でサーバーエージェントとクライアントエージェントの両方の漸近保証を提供します。
特に、私たちの方法は、境界勾配の類似性条件など、不均一なFLの標準的な仮定に依存していません。
画像分類タスクにメソッドを実装し、異なる異種設定の下で他のメソッドと比較します。

要約(オリジナル)

Heterogeneity in federated learning (FL) is a critical and challenging aspect that significantly impacts model performance and convergence. In this paper, we propose a novel framework by formulating heterogeneous FL as a hierarchical optimization problem. This new framework captures both local and global training process through a bilevel formulation and is capable of the following: (i) addressing client heterogeneity through a personalized learning framework; (ii) capturing pre-training process on server’s side; (iii) updating global model through nonstandard aggregation; (iv) allowing for nonidentical local steps; and (v) capturing clients’ local constraints. We design and analyze an implicit zeroth-order FL method (ZO-HFL), provided with nonasymptotic convergence guarantees for both the server-agent and the individual client-agents, and asymptotic guarantees for both the server-agent and client-agents in an almost sure sense. Notably, our method does not rely on standard assumptions in heterogeneous FL, such as the bounded gradient dissimilarity condition. We implement our method on image classification tasks and compare with other methods under different heterogeneous settings.

arxiv情報

著者 Yuyang Qiu,Kibaek Kim,Farzad Yousefian
発行日 2025-04-02 15:44:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | A Randomized Zeroth-Order Hierarchical Framework for Heterogeneous Federated Learning はコメントを受け付けていません

shapr: Explaining Machine Learning Models with Conditional Shapley Values in R and Python

要約

このペーパーでは、RとPythonの両方で機械学習と統計回帰モデルのShapley価値の説明を生成するための汎用性の高いツールであるSHAPRパッケージを紹介します。
このパッケージは、条件付きShapley値の推定値を強調し、機能を正確にキャプチャするための包括的なアプローチを提供します。これは、正しいモデル解釈と同様のソフトウェアに欠けているために重要です。
通常の表形式データに加えて、SHAPR Rパッケージには、時系列予測を説明するための特殊な機能が含まれています。
このパッケージは、ほとんどのユースケースで賢明なデフォルトを備えた最小限のユーザー機能セットを提供し、高度なユーザーが計算を微調整するための広範な柔軟性を提供します。
その他の機能には、並列化された計算、収束検出による反復推定、および豊富な視覚化ツールが含まれます。
SHAPRは、因果情報が利用可能な場合、因果関係と非対称Shapley値を計算するために機能を拡張します。
さらに、SHAPRのコア機能をPythonエコシステムにもたらすShaprpy Pythonライブラリを紹介します。
全体として、このパッケージは、強力でユーザーフレームワーク内の予測モデルの解釈可能性を高めることを目的としています。

要約(オリジナル)

This paper introduces the shapr package, a versatile tool for generating Shapley value explanations for machine learning and statistical regression models in both R and Python. The package emphasizes conditional Shapley value estimates, providing a comprehensive range of approaches for accurately capturing feature dependencies, which is crucial for correct model interpretation and lacking in similar software. In addition to regular tabular data, the shapr R-package includes specialized functionality for explaining time series forecasts. The package offers a minimal set of user functions with sensible defaults for most use cases while providing extensive flexibility for advanced users to fine-tune computations. Additional features include parallelized computations, iterative estimation with convergence detection, and rich visualization tools. shapr also extends its functionality to compute causal and asymmetric Shapley values when causal information is available. In addition, we introduce the shaprpy Python library, which brings core capabilities of shapr to the Python ecosystem. Overall, the package aims to enhance the interpretability of predictive models within a powerful and user-friendly framework.

arxiv情報

著者 Martin Jullum,Lars Henry Berge Olsen,Jon Lachmann,Annabelle Redelmeier
発行日 2025-04-02 15:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO | shapr: Explaining Machine Learning Models with Conditional Shapley Values in R and Python はコメントを受け付けていません

Flavors of Margin: Implicit Bias of Steepest Descent in Homogeneous Neural Networks

要約

深い均一なニューラルネットワークにおける無限の学習率を持つ、最も急な降下アルゴリズムの一般的なファミリーの暗黙的なバイアスを研究します。
(a)ネットワークが完全なトレーニングの精度に達すると、アルゴリズム依存の幾何学的マージンが増加し始め、(b)トレーニング軌道の制限点は、対応するマージン最大化問題のKKTポイントに対応します。
さまざまな急な降下アルゴリズムで最適化されたニューラルネットワークの軌跡を実験的に拡大し、一般的な適応方法(Adam and Shampoo)の暗黙のバイアスとのつながりを強調します。

要約(オリジナル)

We study the implicit bias of the general family of steepest descent algorithms with infinitesimal learning rate in deep homogeneous neural networks. We show that: (a) an algorithm-dependent geometric margin starts increasing once the networks reach perfect training accuracy, and (b) any limit point of the training trajectory corresponds to a KKT point of the corresponding margin-maximization problem. We experimentally zoom into the trajectories of neural networks optimized with various steepest descent algorithms, highlighting connections to the implicit bias of popular adaptive methods (Adam and Shampoo).

arxiv情報

著者 Nikolaos Tsilivis,Gal Vardi,Julia Kempe
発行日 2025-04-02 15:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Flavors of Margin: Implicit Bias of Steepest Descent in Homogeneous Neural Networks はコメントを受け付けていません

Corner-Grasp: Multi-Action Grasp Detection and Active Gripper Adaptation for Grasping in Cluttered Environments

要約

ロボットの把握は重要な機能であり、ロボットが周囲と物理的に相互作用できるようにする上で重要な役割を果たします。
広範な研究にもかかわらず、ターゲットオブジェクトの多様な形状と特性、センシングの不正確さ、環境との潜在的な衝突による課題は残っています。
この作業では、これらの課題が交差する散らかったビンピッキング環境を効果的に把握する方法を提案します。
私たちは、吸引と指の両方の握りを組み合わせて、幅広いオブジェクトを処理する多機能グリッパーを利用します。
また、往復吸引カップと再構成可能な指の動きを積極的に活用することにより、グリッパーハードウェアと周囲の環境間の衝突を最小限に抑えるためのアクティブなグリッパー適応戦略を提示します。
グリッパーの機能を完全に活用するために、単一の入力RGB-D画像から吸引点と指の握りポイントを検出するニューラルネットワークを構築しました。
このネットワークは、シミュレーションから生成された大規模な合成データセットを使用してトレーニングされています。
これに加えて、多様な特性を持つさまざまなオブジェクトの把握ポイント検出を促進する実際のデータセットを構築するための効率的なアプローチを提案します。
実験結果は、提案された方法が、散らかったビンピッキングシナリオでオブジェクトを把握し、ビンの角などの環境制約との衝突を防ぐことができることを示しています。
私たちの提案された方法は、ICRA 2024で開催された第9回ロボット把握および操作競争(RGMC)でその有効性を実証しました。

要約(オリジナル)

Robotic grasping is an essential capability, playing a critical role in enabling robots to physically interact with their surroundings. Despite extensive research, challenges remain due to the diverse shapes and properties of target objects, inaccuracies in sensing, and potential collisions with the environment. In this work, we propose a method for effectively grasping in cluttered bin-picking environments where these challenges intersect. We utilize a multi-functional gripper that combines both suction and finger grasping to handle a wide range of objects. We also present an active gripper adaptation strategy to minimize collisions between the gripper hardware and the surrounding environment by actively leveraging the reciprocating suction cup and reconfigurable finger motion. To fully utilize the gripper’s capabilities, we built a neural network that detects suction and finger grasp points from a single input RGB-D image. This network is trained using a larger-scale synthetic dataset generated from simulation. In addition to this, we propose an efficient approach to constructing a real-world dataset that facilitates grasp point detection on various objects with diverse characteristics. Experiment results show that the proposed method can grasp objects in cluttered bin-picking scenarios and prevent collisions with environmental constraints such as a corner of the bin. Our proposed method demonstrated its effectiveness in the 9th Robotic Grasping and Manipulation Competition (RGMC) held at ICRA 2024.

arxiv情報

著者 Yeong Gwang Son,Seunghwan Um,Juyong Hong,Tat Hieu Bui,Hyouk Ryeol Choi
発行日 2025-04-02 16:12:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Corner-Grasp: Multi-Action Grasp Detection and Active Gripper Adaptation for Grasping in Cluttered Environments はコメントを受け付けていません

Automate Strategy Finding with LLM in Quant Investment

要約

金融取引の深い学習の大きな進歩にもかかわらず、既存のモデルはしばしば不安定性と高い不確実性に直面し、実際の応用を妨げます。
大規模な言語モデル(LLMS)およびマルチエージェントアーキテクチャの進歩を活用して、ポートフォリオ管理とアルファマイニングへの定量的株式投資のための新しいフレームワークを提案します。
私たちのフレームワークは、LLMSを統合して多様なアルファを生成し、マルチエージェントアプローチを採用して市場の状況を動的に評価することにより、これらの問題に対処します。
このペーパーでは、マルチモーダルの財務データからの大規模な言語モデル(LLMS)がアルファ要因を採掘するフレームワークを提案し、市場のダイナミクスを包括的に理解することを保証します。
最初のモジュールは、数値データ、研究論文、視覚チャートを統合することにより、予測信号を抽出します。
2番目のモジュールでは、アンサンブル学習を使用して、さまざまなリスク選好を備えた多様なトレーディングエージェントのプールを構築し、より広範な市場分析を通じて戦略のパフォーマンスを向上させます。
3番目のモジュールでは、動的な重量ゲーティングメカニズムは、リアルタイム市場の状況に基づいて最も関連性の高いエージェントに重みを選択および割り当て、適応およびコンテキストを認識した複合アルファ式の作成を可能にします。
中国の株式市場での広範な実験は、このフレームワークが複数の金融メトリックにわたって最先端のベースラインを大幅に上回ることを示しています。
結果は、LLM生成アルファとマルチエージェントアーキテクチャを組み合わせて、優れた取引パフォーマンスと安定性を実現することの有効性を強調しています。
この作業は、定量的投資戦略を強化する際のAI主導のアプローチの可能性を強調し、金融取引における高度な機械学習技術を統合するための新しいベンチマークを設定することも、多様な市場に適用できます。

要約(オリジナル)

Despite significant progress in deep learning for financial trading, existing models often face instability and high uncertainty, hindering their practical application. Leveraging advancements in Large Language Models (LLMs) and multi-agent architectures, we propose a novel framework for quantitative stock investment in portfolio management and alpha mining. Our framework addresses these issues by integrating LLMs to generate diversified alphas and employing a multi-agent approach to dynamically evaluate market conditions. This paper proposes a framework where large language models (LLMs) mine alpha factors from multimodal financial data, ensuring a comprehensive understanding of market dynamics. The first module extracts predictive signals by integrating numerical data, research papers, and visual charts. The second module uses ensemble learning to construct a diverse pool of trading agents with varying risk preferences, enhancing strategy performance through a broader market analysis. In the third module, a dynamic weight-gating mechanism selects and assigns weights to the most relevant agents based on real-time market conditions, enabling the creation of an adaptive and context-aware composite alpha formula. Extensive experiments on the Chinese stock markets demonstrate that this framework significantly outperforms state-of-the-art baselines across multiple financial metrics. The results underscore the efficacy of combining LLM-generated alphas with a multi-agent architecture to achieve superior trading performance and stability. This work highlights the potential of AI-driven approaches in enhancing quantitative investment strategies and sets a new benchmark for integrating advanced machine learning techniques in financial trading can also be applied on diverse markets.

arxiv情報

著者 Zhizhuo Kou,Holam Yu,Junyu Luo,Jingshu Peng,Lei Chen
発行日 2025-04-02 16:21:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-fin.PM, q-fin.PR | Automate Strategy Finding with LLM in Quant Investment はコメントを受け付けていません

Architect Your Landscape Approach (AYLA) for Optimizations in Deep Learning

要約

確率的勾配降下(SGD)およびAdamなどのそのバリアントは、損失関数勾配に基づいて固定または適応学習率を使用してモデルパラメーターを調整し、深い学習最適化の基礎となっています。
ただし、これらの方法は、非凸の高次元設定における適応性と効率のバランスをとる上で、しばしば課題に直面しています。
このペーパーでは、損失関数変換を通じてトレーニングのダイナミクスを強化する新しい最適化手法であるAylaを紹介します。
調整可能なパワーロー変換を適用することにより、Aylaは重要なポイントを保持しながら、損失値をスケーリングして勾配感度を増幅し、収束を加速させます。
さらに、変換された損失に適応する動的な(効果的な)学習率を提案し、最適化効率を向上させます。
合成非凸多項式、非凸曲線フィッティングデータセット、および桁分類(MNIST)の最小値を見つけることに関する経験的テストは、AYLAが収束速度と安定性でSGDとADAMを上回ることを示しています。
このアプローチは、最適化の結果を改善するために損失の状況を再定義し、深いニューラルネットワークに有望な進歩を提供し、任意の最適化方法に適用し、潜在的にITのパフォーマンスを改善することができます。

要約(オリジナル)

Stochastic Gradient Descent (SGD) and its variants, such as ADAM, are foundational to deep learning optimization, adjusting model parameters using fixed or adaptive learning rates based on loss function gradients. However, these methods often face challenges in balancing adaptability and efficiency in non-convex, high-dimensional settings. This paper introduces AYLA, a novel optimization technique that enhances training dynamics through loss function transformations. By applying a tunable power-law transformation, AYLA preserves critical points while scaling loss values to amplify gradient sensitivity, accelerating convergence. We further propose a dynamic (effective) learning rate that adapts to the transformed loss, improving optimization efficiency. Empirical tests on finding minimum of a synthetic non-convex polynomial, a non-convex curve-fitting dataset, and digit classification (MNIST) demonstrate that AYLA surpasses SGD and ADAM in convergence speed and stability. This approach redefines the loss landscape for better optimization outcomes, offering a promising advancement for deep neural networks and can be applied to any optimization method and potentially improve the performance of it.

arxiv情報

著者 Ben Keslaki
発行日 2025-04-02 16:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Architect Your Landscape Approach (AYLA) for Optimizations in Deep Learning はコメントを受け付けていません