Audio Tagging on an Embedded Hardware Platform

要約

畳み込みニューラル ネットワーク (CNN) は、さまざまな音声分類タスクにおいて最先端のパフォーマンスを発揮してきました。
ただし、組み込みシステムのようなリソースに制約のあるデバイスでは、リアルタイムの導入が依然として課題となっています。
この論文では、音声パターン認識用に設計された大規模な事前学習済みオーディオ ニューラル ネットワークのパフォーマンスが、Raspberry Pi などのハードウェアに展開されたときにどのように変化するかを分析します。
私たちは、CPU 温度、マイクの品質、オーディオ信号の音量がパフォーマンスに与える役割を経験的に研究しています。
私たちの実験では、継続的な CPU 使用により温度が上昇し、Raspberry Pi の自動スローダウン メカニズムがトリガーされ、推論遅延に影響を与える可能性があることが明らかになりました。
マイクの品質、特に Google AIY Voice Kit などの手頃な価格のデバイスの場合、音声信号の音量はすべて、システムのパフォーマンスに影響します。
調査の過程で、ライブラリの互換性と Raspberry Pi の独自のプロセッサ アーキテクチャ要件に関連するかなりの複雑さに遭遇し、従来のコンピュータ (PC) に比べてプロセスが簡単ではなくなりました。
私たちの観察は、課題も提示していますが、将来の研究者が、よりコンパクトな機械学習モデルを開発し、熱放散ハードウェアを設計し、AI モデルをエッジ デバイス上のリアルタイム アプリケーションに展開する際に適切なマイクを選択するための道を切り開きます。
すべての関連アセットとインタラクティブなデモは GitHub で見つけることができます。

要約(オリジナル)

Convolutional neural networks (CNNs) have exhibited state-of-the-art performance in various audio classification tasks. However, their real-time deployment remains a challenge on resource-constrained devices like embedded systems. In this paper, we analyze how the performance of large-scale pretrained audio neural networks designed for audio pattern recognition changes when deployed on a hardware such as Raspberry Pi. We empirically study the role of CPU temperature, microphone quality and audio signal volume on performance. Our experiments reveal that the continuous CPU usage results in an increased temperature that can trigger an automated slowdown mechanism in the Raspberry Pi, impacting inference latency. The quality of a microphone, specifically with affordable devices like the Google AIY Voice Kit, and audio signal volume, all affect the system performance. In the course of our investigation, we encounter substantial complications linked to library compatibility and the unique processor architecture requirements of the Raspberry Pi, making the process less straightforward compared to conventional computers (PCs). Our observations, while presenting challenges, pave the way for future researchers to develop more compact machine learning models, design heat-dissipative hardware, and select appropriate microphones when AI models are deployed for real-time applications on edge devices. All related assets and an interactive demo can be found on GitHub

arxiv情報

著者 Gabriel Bibbo,Arshdeep Singh,Mark D. Plumbley
発行日 2023-06-15 13:02:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, cs.SY, eess.AS, eess.SY パーマリンク