Harmonic-NAS: Hardware-Aware Multimodal Neural Architecture Search on Resource-constrained Devices


マルチモーダル ニューラル ネットワーク (MM-NN) に対する最近の関心の高まりは、多様なデータ ソースからのマルチスケール情報を効果的に処理し、統合するその能力に起因しています。
MM-NN は、適切なユニモーダル バックボーンと特定の融合ネットワークを使用して、複数のモダリティから特徴を抽出して融合します。
それには、単峰性バックボーンのアーキテクチャ パラメータを調整し、融合ポイントを選択し、融合のための操作を選択する必要があります。
さらに、マルチモダリティ AI は、精度に加えて推論遅延とエネルギー消費が重要な指標となるモノのインターネット (IoT) システムの最先端のオプションとして台頭しています。
この論文では、リソースに制約のあるデバイス上のハードウェアを認識して、ユニモーダル バックボーンとマルチモーダル フュージョン ネットワークを共同最適化するためのフレームワークである Harmonic-NAS を提案します。
Harmonic-NAS には、単峰性バックボーン アーキテクチャと融合戦略およびオペレータに対する 2 層の最適化アプローチが含まれます。
ハードウェアの側面を最適化に組み込むことで、さまざまなデバイスとマルチモーダル データセットの評価結果から、Harmonic-NAS が最先端のアプローチよりも優れていることが実証され、最大 10.9% の精度向上、1.91 倍の遅延削減、2.14 倍の遅延を達成しました。


The recent surge of interest surrounding Multimodal Neural Networks (MM-NN) is attributed to their ability to effectively process and integrate multiscale information from diverse data sources. MM-NNs extract and fuse features from multiple modalities using adequate unimodal backbones and specific fusion networks. Although this helps strengthen the multimodal information representation, designing such networks is labor-intensive. It requires tuning the architectural parameters of the unimodal backbones, choosing the fusing point, and selecting the operations for fusion. Furthermore, multimodality AI is emerging as a cutting-edge option in Internet of Things (IoT) systems where inference latency and energy consumption are critical metrics in addition to accuracy. In this paper, we propose Harmonic-NAS, a framework for the joint optimization of unimodal backbones and multimodal fusion networks with hardware awareness on resource-constrained devices. Harmonic-NAS involves a two-tier optimization approach for the unimodal backbone architectures and fusion strategy and operators. By incorporating the hardware dimension into the optimization, evaluation results on various devices and multimodal datasets have demonstrated the superiority of Harmonic-NAS over state-of-the-art approaches achieving up to 10.9% accuracy improvement, 1.91x latency reduction, and 2.14x energy efficiency gain.


著者 Mohamed Imed Eddine Ghebriout,Halima Bouzidi,Smail Niar,Hamza Ouarnoughi
発行日 2023-09-28 15:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク