要約
このペーパーでは、リソースに制約のあるエッジデバイスをターゲットとする効率的なニューラルアーキテクチャ検索(NAS)のための新しいハードウェア対応フレームワークであるMarco(コンフォーマル最適化によるマルチエージェント補強学習)を紹介します。
検索時間を大幅に短縮し、厳格なハードウェアの制約の下で精度を維持することにより、MarcoはEdge AI展開用の自動DNN設計とCADの間のギャップを橋渡しします。
Marcoのコアテクニカル貢献は、深いニューラルネットワークを展開するためのハードウェア/ソフトウェアの共同設計プロセスを加速するために、マルチエージェント補強学習(MARL)とコンフォーマル予測(CP)のユニークな組み合わせにあります。
Marcoは、従来の1回の(OFA)スーパーネットアプローチとは異なり、NASタスクをハードウェア構成エージェント(HCA)および量子化エージェント(QA)に分解します。
HCAは高レベルの設計パラメーターを最適化しますが、QAは、中央critic、分権化された解釈(CTDE)パラダイム内の共有報酬信号を使用して、厳格なメモリおよびレイテンシー予算の下でレイヤーごとのビット幅を決定します。
重要な革新は、部分的なトレーニングまたはハードウェアシミュレーションの高いコストを発する前に、統計的な保証(ユーザー定義のミスベージレート)を提供する統計的保証(ユーザー定義のミスベージレート)を提供する校正されたCP代理モデルの統合です。
この初期のフィルタリングは、高品質の設計が高い確率で保持されるようにしながら、検索スペースを大幅に削減します。
MNIST、CIFAR-10、およびCIFAR-100に関する広範な実験は、Marcoがベースラインに近い精度を維持しながら、OFAベースラインと比較して合計検索時間を3〜4倍短縮することを示しています(0.3%以内)。
さらに、マルコは推論の遅延も削減します。
MAX78000評価委員会の検証は、シミュレーターの傾向が実際に保持されていることを確認し、シミュレーターの推定値は測定値から5%未満のものから逸脱しています。
要約(オリジナル)
This paper introduces MARCO (Multi-Agent Reinforcement learning with Conformal Optimization), a novel hardware-aware framework for efficient neural architecture search (NAS) targeting resource-constrained edge devices. By significantly reducing search time and maintaining accuracy under strict hardware constraints, MARCO bridges the gap between automated DNN design and CAD for edge AI deployment. MARCO’s core technical contribution lies in its unique combination of multi-agent reinforcement learning (MARL) with Conformal Prediction (CP) to accelerate the hardware/software co-design process for deploying deep neural networks. Unlike conventional once-for-all (OFA) supernet approaches that require extensive pretraining, MARCO decomposes the NAS task into a hardware configuration agent (HCA) and a Quantization Agent (QA). The HCA optimizes high-level design parameters, while the QA determines per-layer bit-widths under strict memory and latency budgets using a shared reward signal within a centralized-critic, decentralized-execution (CTDE) paradigm. A key innovation is the integration of a calibrated CP surrogate model that provides statistical guarantees (with a user-defined miscoverage rate) to prune unpromising candidate architectures before incurring the high costs of partial training or hardware simulation. This early filtering drastically reduces the search space while ensuring that high-quality designs are retained with a high probability. Extensive experiments on MNIST, CIFAR-10, and CIFAR-100 demonstrate that MARCO achieves a 3-4x reduction in total search time compared to an OFA baseline while maintaining near-baseline accuracy (within 0.3%). Furthermore, MARCO also reduces inference latency. Validation on a MAX78000 evaluation board confirms that simulator trends hold in practice, with simulator estimates deviating from measured values by less than 5%.
arxiv情報
著者 | Arya Fayyazi,Mehdi Kamal,Massoud Pedram |
発行日 | 2025-06-16 17:58:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google