A Gravity-informed Spatiotemporal Transformer for Human Activity Intensity Prediction

要約

人間の活動強度予測は、多くのロケーションベースのサービスにとって重要です。
人間の活動の動的な時空間パターンをモデル化するための大きな進歩がなされていますが、空間的グラフニューラルネットワーク(ST-GNNS)を含むほとんどの既存の方法は、空間相互作用の物理的制約と空間相関モデリングにおける滑らかな現象を見落としています。
これらの制限に対処するために、この作業では、物理学に基づいたディープラーニングフレームワーク、すなわち、重力に基づいた空間変圧器(重力形態)を提案します。トランスの注意を改善して重力の普遍的な法則を統合し、空間相互作用から制約を明示的に組み込むことにより。
具体的には、(1)インフローと流出に基づいた2つの空間的に明示的な質量パラメーターを推定します。(2)空間モデルのランダム性を制約するために空間的相互作用の閉形式溶液を使用して、クロスユニット相互作用の可能性をモデル化し、(3)学習した空間的相互作用を活用して、誘惑を導き、緩和します。
人間の活動の根本的な法則は、提案された適応重力モデルによって明示的にモデル化される可能性があります。
さらに、結合された空間学習と時間学習のバランスをとるために、平行した時空グラフ畳み込み変圧器構造が提案されています。
6つの現実世界の大規模なアクティビティデータセットでの体系的な実験は、最先端のベンチマークに対するアプローチの定量的および定性的な優位性を示しています。
さらに、学習した重力注意マトリックスは、地理的法則に基づいて解釈して解釈することができます。
この研究は、物理的法則を空間的予測学習のための深い学習と統合するという新しい洞察を提供します。

要約(オリジナル)

Human activity intensity prediction is a crucial to many location-based services. Although tremendous progress has been made to model dynamic spatiotemporal patterns of human activity, most existing methods, including spatiotemporal graph neural networks (ST-GNNs), overlook physical constraints of spatial interactions and the over-smoothing phenomenon in spatial correlation modeling. To address these limitations, this work proposes a physics-informed deep learning framework, namely Gravity-informed Spatiotemporal Transformer (Gravityformer) by refining transformer attention to integrate the universal law of gravitation and explicitly incorporating constraints from spatial interactions. Specifically, it (1) estimates two spatially explicit mass parameters based on inflow and outflow, (2) models the likelihood of cross-unit interaction using closed-form solutions of spatial interactions to constrain spatial modeling randomness, and (3) utilizes the learned spatial interaction to guide and mitigate the over-smoothing phenomenon in transformer attention matrices. The underlying law of human activity can be explicitly modeled by the proposed adaptive gravity model. Moreover, a parallel spatiotemporal graph convolution transformer structure is proposed for achieving a balance between coupled spatial and temporal learning. Systematic experiments on six real-world large-scale activity datasets demonstrate the quantitative and qualitative superiority of our approach over state-of-the-art benchmarks. Additionally, the learned gravity attention matrix can be disentangled and interpreted based on geographical laws. This work provides a novel insight into integrating physical laws with deep learning for spatiotemporal predictive learning.

arxiv情報

著者 Yi Wang,Zhenghong Wang,Fan Zhang,Chengling Tang,Chaogui Kang,Di Zhu,Zhongfu Ma,Sijie Ruan,Weiyu Zhang,Yu Zheng,Philip S. Yu,Yu Liu
発行日 2025-06-16 16:32:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Gravity-informed Spatiotemporal Transformer for Human Activity Intensity Prediction はコメントを受け付けていません

Hybrid Meta-learners for Estimating Heterogeneous Treatment Effects

要約

観察データからの条件付き平均治療効果(CATE)の推定には、特にモデルの複雑さを正規化する方法に関して、監視された学習とは異なる決定をモデル化することが含まれます。
以前のアプローチは、明確な誘導バイアスを課す2つの主要な「メタライナー」パラダイムにグループ化できます。
間接的なメタ学習者は、最初に個別の潜在的な結果(PO)モデルを正規化および正規化し、その違いを取得してCATEを推定しますが、直接メタライナーはCATE機能自体の推定器を構築し、直接正規化します。
どちらのアプローチもすべてのシナリオで一貫して他のアプローチを上回ることはありません:間接的な学習者は、PO機能が単純な場合にうまく機能しますが、CATEが個々のPO機能よりもシンプルである場合、直接学習者はパフォーマンスを発揮します。
この論文では、手元のデータセットに応じて直接的な正規化と間接的な正則化を補間する新しい正規化戦略であるハイブリッド学習者(H-Learner)を紹介します。
Hラーナーは、POS自体の正確な個別近似を必ずしも必要とせずに、違いがCATEに密接に近似する中間関数を学習することにより、これを達成します。
POSに意図的に準最適な適合を許可することで、CATEの推定におけるバイアス分散トレードオフが改善されることを経験的に実証します。
半合成および実世界のベンチマークデータセットで実施された実験は、H-Learnerが一貫してパレートフロンティアで動作し、直接メタライナーと間接的なメタライナーの両方の強度を効果的に組み合わせることを示しています。

要約(オリジナル)

Estimating conditional average treatment effects (CATE) from observational data involves modeling decisions that differ from supervised learning, particularly concerning how to regularize model complexity. Previous approaches can be grouped into two primary ‘meta-learner’ paradigms that impose distinct inductive biases. Indirect meta-learners first fit and regularize separate potential outcome (PO) models and then estimate CATE by taking their difference, whereas direct meta-learners construct and directly regularize estimators for the CATE function itself. Neither approach consistently outperforms the other across all scenarios: indirect learners perform well when the PO functions are simple, while direct learners outperform when the CATE is simpler than individual PO functions. In this paper, we introduce the Hybrid Learner (H-learner), a novel regularization strategy that interpolates between the direct and indirect regularizations depending on the dataset at hand. The H-learner achieves this by learning intermediate functions whose difference closely approximates the CATE without necessarily requiring accurate individual approximations of the POs themselves. We demonstrate empirically that intentionally allowing suboptimal fits to the POs improves the bias-variance tradeoff in estimating CATE. Experiments conducted on semi-synthetic and real-world benchmark datasets illustrate that the H-learner consistently operates at the Pareto frontier, effectively combining the strengths of both direct and indirect meta-learners.

arxiv情報

著者 Zhongyuan Liang,Lars van der Laan,Ahmed Alaa
発行日 2025-06-16 16:37:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME | Hybrid Meta-learners for Estimating Heterogeneous Treatment Effects はコメントを受け付けていません

Manifold Metric: A Loss Landscape Approach for Predicting Model Performance

要約

特定のタスクの最適なモデルを決定するには、多くの場合、複数のモデルをゼロからトレーニングする必要があります。これは、データセットとモデルサイズが成長するにつれて非現実的になります。
より効率的な代替案は、より小さな訓練を受けたモデルを拡張することですが、トレーニングのダイナミクスへの影響の理解が限られているため、このアプローチは十分に活用されていません。
この影響を定量化するための既存の方法には、計算コストを含む顕著な制限があります。
これに対処するために、直線的に接続された最小値のマニホールドを含むことが示されている損失の状況に基づいて新しい視点を紹介します。
具体的には、モデル拡張の影響を研究するためにこの多様体のサイズを推定するメトリックを提案します。
私たちの実験は、パフォーマンスの向上とマニホールドメトリックの間に強い相関関係を明らかにし、より情報に基づいたモデル比較を可能にし、信頼できるモデル拡張のための幾何学駆動型アプローチに向けた最初のステップを提供します。
特に、私たちのメトリックは、モデルに同等の数のパラメーターを持つ異なるタイプの拡張が適用された場合でも、他のベースラインよりも優れています。

要約(オリジナル)

Determining the optimal model for a given task often requires training multiple models from scratch, which becomes impractical as dataset and model sizes grow. A more efficient alternative is to expand smaller pre-trained models, but this approach is underutilized due to a limited understanding of its impact on the training dynamics. Existing methods for quantifying this impact have notable limitations, including computation cost. To address this, we introduce a new perspective based on the loss landscape, which has been shown to contain a manifold of linearly connected minima. Specifically, we propose a metric that estimates the size of this manifold to study the impact of model expansion. Our experiments reveal a strong correlation between performance gains and our manifold metric, enabling more informed model comparison and offering a first step toward a geometry-driven approach for reliable model expansion. Notably, our metric outperforms other baselines, even when different types of expansion with equivalent number of parameters are applied to a model.

arxiv情報

著者 Pranshu Malviya,Jerry Huang,Aristide Baratin,Quentin Fournier,Sarath Chandar
発行日 2025-06-16 16:39:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Manifold Metric: A Loss Landscape Approach for Predicting Model Performance はコメントを受け付けていません

Enforcing tail calibration when training probabilistic forecast models

要約

確率的予測は通常、最先端の統計学習モデルと機械学習モデルを使用して取得され、モデルパラメーターは、一連のトレーニングデータに対して適切なスコアリングルールを最適化することにより推定されます。
モデルクラスが正しく指定されていない場合、学習モデルは必ずしも較正された予測を発行するわけではありません。
キャリブレーションされた予測により、ユーザーは意思決定のリスクを適切にバランスさせることができます。また、予測モデルは、このような結果がしばしば大きな社会経済的影響を生み出すため、極端なイベントの校正された予測を発行することが特に重要です。
この作業では、極端なイベントに対して行われた予測の信頼性を改善するために、確率論的予測モデルのトレーニングに使用される損失関数をどのように適応させることができるかを研究します。
加重スコアリングルールに基づいて損失関数を調査し、さらにテールの誤りの尺度を使用して正規化された損失関数を提案します。
これらのアプローチを、単純なパラメトリックモデル、分布回帰ネットワーク、条件付き生成モデルなど、英国の風速のますます柔軟な予測モデルの階層に適用します。
最先端のモデルは、極端な風速のキャリブレーションされた予測を発行せず、極端なイベントの予測のキャリブレーションは、モデルトレーニング中の損失関数への適切な適応によって改善できることを実証します。
ただし、これにより、極端なイベントのための校正された予測と、より一般的な結果のための校正された予測との間にトレードオフが導入されます。

要約(オリジナル)

Probabilistic forecasts are typically obtained using state-of-the-art statistical and machine learning models, with model parameters estimated by optimizing a proper scoring rule over a set of training data. If the model class is not correctly specified, then the learned model will not necessarily issue forecasts that are calibrated. Calibrated forecasts allow users to appropriately balance risks in decision making, and it is particularly important that forecast models issue calibrated predictions for extreme events, since such outcomes often generate large socio-economic impacts. In this work, we study how the loss function used to train probabilistic forecast models can be adapted to improve the reliability of forecasts made for extreme events. We investigate loss functions based on weighted scoring rules, and additionally propose regularizing loss functions using a measure of tail miscalibration. We apply these approaches to a hierarchy of increasingly flexible forecast models for UK wind speeds, including simple parametric models, distributional regression networks, and conditional generative models. We demonstrate that state-of-the-art models do not issue calibrated forecasts for extreme wind speeds, and that the calibration of forecasts for extreme events can be improved by suitable adaptations to the loss function during model training. This, however, introduces a trade-off between calibrated forecasts for extreme events and calibrated forecasts for more common outcomes.

arxiv情報

著者 Jakob Benjamin Wessel,Maybritt Schillinger,Frank Kwasniok,Sam Allen
発行日 2025-06-16 16:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.ML | Enforcing tail calibration when training probabilistic forecast models はコメントを受け付けていません

What Happens During the Loss Plateau? Understanding Abrupt Learning in Transformers

要約

アルゴリズムタスクでのトレーニングトランスは、頻繁に興味深い突然の学習現象を示しています。パフォーマンスプラトーの拡張と、突然の鋭い改善が続きます。
この研究では、主に浅い変圧器で、このようなダイナミクスの根本的なメカニズムを調査しています。
プラトー中に、モデルはしばしば解釈可能な部分的なソリューションを開発し、同時にその出力に強い繰り返しバイアスを示していることを明らかにします。
この生産量の縮退は、内部表現崩壊を伴い、異なるトークンの隠れた状態がほぼ平行になります。
さらに、最適な注意マップのゆっくりとした学習を重要なボトルネックとして特定します。
プラトー中の注意構成の隠れた進歩は、最終的な急速な収束に先行し、注意に直接介入すると、プラトーの持続時間と繰り返しバイアスの重症度と表現崩壊が大きく変わります。
これらの特定された現象繰り返しバイアスと表現崩壊は、おもちゃのセットアップのアーティファクトではなく、PythiaやOlmoなどの大規模な言語モデルの初期の前訓練段階でも現れていることを検証します。

要約(オリジナル)

Training Transformers on algorithmic tasks frequently demonstrates an intriguing abrupt learning phenomenon: an extended performance plateau followed by a sudden, sharp improvement. This work investigates the underlying mechanisms for such dynamics, primarily in shallow Transformers. We reveal that during the plateau, the model often develops an interpretable partial solution while simultaneously exhibiting a strong repetition bias in their outputs. This output degeneracy is accompanied by internal representation collapse, where hidden states across different tokens become nearly parallel. We further identify the slow learning of optimal attention maps as a key bottleneck. Hidden progress in attention configuration during the plateau precedes the eventual rapid convergence, and directly intervening on attention significantly alters plateau duration and the severity of repetition bias and representational collapse. We validate that these identified phenomena-repetition bias and representation collapse-are not artifacts of toy setups but also manifest in the early pre-training stage of large language models like Pythia and OLMo.

arxiv情報

著者 Pulkit Gopalani,Wei Hu
発行日 2025-06-16 16:51:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | What Happens During the Loss Plateau? Understanding Abrupt Learning in Transformers はコメントを受け付けていません

Gradient-Normalized Smoothness for Optimization with Approximate Hessians

要約

この作業では、Gradient Remulization手法と組み合わせたおおよその2次情報を使用する新しい最適化アルゴリズムを開発し、凸対および非凸目的の両方の高速なグローバル収束率を達成します。
分析の重要な革新は、グラデーション正規化された滑らかさと呼ばれる新しい概念であり、勾配フィールドの良好な相対近似を生成する現在のポイント周辺のボールの最大半径を特徴付けます。
私たちの理論は、ヘシアン近似と勾配の線形化との間に自然な固有のつながりを確立します。
重要なことに、勾配正規化された滑らかさは、目的関数の特定の問題クラスに依存するものではなく、勾配フィールドとヘシアン近似に関するローカル情報をメソッドのグローバルな動作に効果的に翻訳することです。
この新しい概念は、普遍的なグローバルコンバージェンス保証を備えたおおよその2次アルゴリズムを装備し、H \ ‘より古い連続したヘシアンと第3派生物、準自己一致関数、および一次最適化のスムーズなクラスで機能の最先端のレートを回復します。
これらのレートは自動的に達成され、一般化された自己矛盾機能など、より広範なクラスに拡張されます。
ロジスティック回帰とヘシアンの近似のソフトマックスの問題、およびフィッシャーとガウス – ニュートン近似を使用した非凸最適化におけるグローバルな線形レートの結果の直接的な応用を示します。

要約(オリジナル)

In this work, we develop new optimization algorithms that use approximate second-order information combined with the gradient regularization technique to achieve fast global convergence rates for both convex and non-convex objectives. The key innovation of our analysis is a novel notion called Gradient-Normalized Smoothness, which characterizes the maximum radius of a ball around the current point that yields a good relative approximation of the gradient field. Our theory establishes a natural intrinsic connection between Hessian approximation and the linearization of the gradient. Importantly, Gradient-Normalized Smoothness does not depend on the specific problem class of the objective functions, while effectively translating local information about the gradient field and Hessian approximation into the global behavior of the method. This new concept equips approximate second-order algorithms with universal global convergence guarantees, recovering state-of-the-art rates for functions with H\’older-continuous Hessians and third derivatives, quasi-self-concordant functions, as well as smooth classes in first-order optimization. These rates are achieved automatically and extend to broader classes, such as generalized self-concordant functions. We demonstrate direct applications of our results for global linear rates in logistic regression and softmax problems with approximate Hessians, as well as in non-convex optimization using Fisher and Gauss-Newton approximations.

arxiv情報

著者 Andrei Semenov,Martin Jaggi,Nikita Doikov
発行日 2025-06-16 17:19:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Gradient-Normalized Smoothness for Optimization with Approximate Hessians はコメントを受け付けていません

Understanding Lookahead Dynamics Through Laplace Transform

要約

ゲームの最適化におけるハイパーパラメーターの収束分析のための周波数ドメインフレームワークを導入し、高解像度の微分方程式(HRDE)とラプラスの変換を活用します。
Lookaheadアルゴリズムに焦点を当て、グラデーションステップ$ k $と平均係数$ \ alpha $によって特徴付けられます – 双線形ゲームの離散時間振動ダイナミクスを周波数領域に変換して、正確な収束基準を導き出します。
私たちの高精度$ o(\ gamma^2)$ -HRDEモデルはより厳しい基準を生成しますが、私たちの1次$ o(\ gamma)$ -HRDEモデルは、複雑な閉じた型ソリューションよりも実用的なハイパーパラメーターチューニングに優先順位を付けることにより実用的なガイダンスを提供します。
離散時間設定での経験的検証は、私たちのアプローチの有効性を示しています。これは、局所的な線形演算子にさらに拡張される可能性があり、ゲームで学習するためのハイパーパラメーターを選択するためのスケーラブルなフレームワークを提供します。

要約(オリジナル)

We introduce a frequency-domain framework for convergence analysis of hyperparameters in game optimization, leveraging High-Resolution Differential Equations (HRDEs) and Laplace transforms. Focusing on the Lookahead algorithm–characterized by gradient steps $k$ and averaging coefficient $\alpha$–we transform the discrete-time oscillatory dynamics of bilinear games into the frequency domain to derive precise convergence criteria. Our higher-precision $O(\gamma^2)$-HRDE models yield tighter criteria, while our first-order $O(\gamma)$-HRDE models offer practical guidance by prioritizing actionable hyperparameter tuning over complex closed-form solutions. Empirical validation in discrete-time settings demonstrates the effectiveness of our approach, which may further extend to locally linear operators, offering a scalable framework for selecting hyperparameters for learning in games.

arxiv情報

著者 Aniket Sanyal,Tatjana Chavdarova
発行日 2025-06-16 17:20:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Understanding Lookahead Dynamics Through Laplace Transform はコメントを受け付けていません

Understanding Learning Invariance in Deep Linear Networks

要約

等量および不変の機械学習モデルは、サンプル効率を改善するために、データの対称性と構造パターンを活用します。
実証的研究は、正則化やデータ増強などのデータ駆動型の方法が明示的に不変モデルと同等に機能する可能性があることを示唆していますが、理論的洞察は依然として不足しています。
このホワイトペーパーでは、不変性を達成するための3つのアプローチの理論的比較、データの増強、正規化、およびハードワイヤリングを提供します。
深い線形ネットワークを使用した平均2乗回帰に焦点を当てます。これは、ランクに結合された線形マップをパラメーター化し、特定のグループアクションに不変になるように強化される可能性があります。
ハードワイヤリングとデータ増強の最適化問題の重要なポイントが同一であり、サドルとグローバルな最適のみで構成されることを示します。
対照的に、正規化は追加の重要なポイントを導入しますが、グローバルな最適を除いてサドルのままです。
さらに、正規化パスが連続しており、ハードワイヤードソリューションに収束することを実証します。

要約(オリジナル)

Equivariant and invariant machine learning models exploit symmetries and structural patterns in data to improve sample efficiency. While empirical studies suggest that data-driven methods such as regularization and data augmentation can perform comparably to explicitly invariant models, theoretical insights remain scarce. In this paper, we provide a theoretical comparison of three approaches for achieving invariance: data augmentation, regularization, and hard-wiring. We focus on mean squared error regression with deep linear networks, which parametrize rank-bounded linear maps and can be hard-wired to be invariant to specific group actions. We show that the critical points of the optimization problems for hard-wiring and data augmentation are identical, consisting solely of saddles and the global optimum. By contrast, regularization introduces additional critical points, though they remain saddles except for the global optimum. Moreover, we demonstrate that the regularization path is continuous and converges to the hard-wired solution.

arxiv情報

著者 Hao Duan,Guido Montúfar
発行日 2025-06-16 17:24:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | Understanding Learning Invariance in Deep Linear Networks はコメントを受け付けていません

Sharpness-Aware Machine Unlearning

要約

マシンの学習スキームの下でのSharpness-Aware Minimization(SAM)の有効性(SAM)の有効性を特徴付けます。
以前の研究では、SAMが騒音記憶予防で一般化を改善することを証明していますが、SAMは忘れられたセットを取り付けたときにそのような除去プロパティを放棄し、信号強度に応じてさまざまなテストエラー境界につながることを示します。
さらに、SAMの信号余剰を信号強度の順に特徴付けます。これにより、より少ない保持信号からの学習がモデルのパフォーマンスを維持し、忘れられないセットの学習により多くの重みを置くことができます。
経験的研究は、SAMがシグナルを保持するためのリラックスした要件でSGDを上回り、プレリアンまたは非学習アルゴリズムとしてさまざまな未学習の方法を強化できることを示しています。
過剰フィッティングがより厳しいサンプル固有の解除に利益をもたらす可能性があることを観察して、Sharp Minmaxを提案します。これにより、モデルを2つに分割してSAMで信号を保持し、シャープネスの最大化でシグナルを忘れてしまい、最高のパフォーマンスを達成します。
広範な実験は、SAMがデータの記憶によって測定されたさまざまな困難にわたって学習を強化し、保持セットと忘却セットの間の特徴の絡み合い、メンバーシップ推論攻撃に対する強い抵抗、および平らな損失の景観をもたらすことを示しています。

要約(オリジナル)

We characterize the effectiveness of Sharpness-aware minimization (SAM) under machine unlearning scheme, where unlearning forget signals interferes with learning retain signals. While previous work prove that SAM improves generalization with noise memorization prevention, we show that SAM abandons such denoising property when fitting the forget set, leading to various test error bounds depending on signal strength. We further characterize the signal surplus of SAM in the order of signal strength, which enables learning from less retain signals to maintain model performance and putting more weight on unlearning the forget set. Empirical studies show that SAM outperforms SGD with relaxed requirement for retain signals and can enhance various unlearning methods either as pretrain or unlearn algorithm. Observing that overfitting can benefit more stringent sample-specific unlearning, we propose Sharp MinMax, which splits the model into two to learn retain signals with SAM and unlearn forget signals with sharpness maximization, achieving best performance. Extensive experiments show that SAM enhances unlearning across varying difficulties measured by data memorization, yielding decreased feature entanglement between retain and forget sets, stronger resistance to membership inference attacks, and a flatter loss landscape.

arxiv情報

著者 Haoran Tang,Rajiv Khanna
発行日 2025-06-16 17:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Sharpness-Aware Machine Unlearning はコメントを受け付けていません

MARCO: Hardware-Aware Neural Architecture Search for Edge Devices with Multi-Agent Reinforcement Learning and Conformal Prediction Filtering

要約

このペーパーでは、リソースに制約のあるエッジデバイスをターゲットとする効率的なニューラルアーキテクチャ検索(NAS)のための新しいハードウェア対応フレームワークであるMarco(コンフォーマル最適化によるマルチエージェント補強学習)を紹介します。
検索時間を大幅に短縮し、厳格なハードウェアの制約の下で精度を維持することにより、MarcoはEdge AI展開用の自動DNN設計とCADの間のギャップを橋渡しします。
Marcoのコアテクニカル貢献は、深いニューラルネットワークを展開するためのハードウェア/ソフトウェアの共同設計プロセスを加速するために、マルチエージェント補強学習(MARL)とコンフォーマル予測(CP)のユニークな組み合わせにあります。
Marcoは、従来の1回の(OFA)スーパーネットアプローチとは異なり、NASタスクをハードウェア構成エージェント(HCA)および量子化エージェント(QA)に分解します。
HCAは高レベルの設計パラメーターを最適化しますが、QAは、中央critic、分権化された解釈(CTDE)パラダイム内の共有報酬信号を使用して、厳格なメモリおよびレイテンシー予算の下でレイヤーごとのビット幅を決定します。
重要な革新は、部分的なトレーニングまたはハードウェアシミュレーションの高いコストを発する前に、統計的な保証(ユーザー定義のミスベージレート)を提供する統計的保証(ユーザー定義のミスベージレート)を提供する校正されたCP代理モデルの統合です。
この初期のフィルタリングは、高品質の設計が高い確率で保持されるようにしながら、検索スペースを大幅に削減します。
MNIST、CIFAR-10、およびCIFAR-100に関する広範な実験は、Marcoがベースラインに近い精度を維持しながら、OFAベースラインと比較して合計検索時間を3〜4倍短縮することを示しています(0.3%以内)。
さらに、マルコは推論の遅延も削減します。
MAX78000評価委員会の検証は、シミュレーターの傾向が実際に保持されていることを確認し、シミュレーターの推定値は測定値から5%未満のものから逸脱しています。

要約(オリジナル)

This paper introduces MARCO (Multi-Agent Reinforcement learning with Conformal Optimization), a novel hardware-aware framework for efficient neural architecture search (NAS) targeting resource-constrained edge devices. By significantly reducing search time and maintaining accuracy under strict hardware constraints, MARCO bridges the gap between automated DNN design and CAD for edge AI deployment. MARCO’s core technical contribution lies in its unique combination of multi-agent reinforcement learning (MARL) with Conformal Prediction (CP) to accelerate the hardware/software co-design process for deploying deep neural networks. Unlike conventional once-for-all (OFA) supernet approaches that require extensive pretraining, MARCO decomposes the NAS task into a hardware configuration agent (HCA) and a Quantization Agent (QA). The HCA optimizes high-level design parameters, while the QA determines per-layer bit-widths under strict memory and latency budgets using a shared reward signal within a centralized-critic, decentralized-execution (CTDE) paradigm. A key innovation is the integration of a calibrated CP surrogate model that provides statistical guarantees (with a user-defined miscoverage rate) to prune unpromising candidate architectures before incurring the high costs of partial training or hardware simulation. This early filtering drastically reduces the search space while ensuring that high-quality designs are retained with a high probability. Extensive experiments on MNIST, CIFAR-10, and CIFAR-100 demonstrate that MARCO achieves a 3-4x reduction in total search time compared to an OFA baseline while maintaining near-baseline accuracy (within 0.3%). Furthermore, MARCO also reduces inference latency. Validation on a MAX78000 evaluation board confirms that simulator trends hold in practice, with simulator estimates deviating from measured values by less than 5%.

arxiv情報

著者 Arya Fayyazi,Mehdi Kamal,Massoud Pedram
発行日 2025-06-16 17:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | MARCO: Hardware-Aware Neural Architecture Search for Edge Devices with Multi-Agent Reinforcement Learning and Conformal Prediction Filtering はコメントを受け付けていません