An Efficient GPU-based Implementation for Noise Robust Sound Source Localization

要約

音源定位(SSL)、音源分離(SSS)、自動音声認識(ASR)を含むロボットオーディオは、ロボットやスマートデバイスが人間の聴覚と同様の聴覚能力を獲得することを可能にします。その応用範囲は広いものの、SSLにおけるマイクロホンアレイからのマルチチャンネルオーディオ信号の処理には、計算集約的な行列演算が必要であり、特にCPUリソースが限られた組込みシステムでは、中央処理装置(CPU)での効率的な導入の妨げとなる可能性がある。本論文では、オープンソースのソフトウェアスイートであるHARKプラットフォームにおいて、ノイズに強いアルゴリズムである一般化特異値分解に基づく多重信号分類(GSVD-MUSIC)を利用した、ロボットオーディションのためのSSLのGPUベースの実装を紹介する。60チャンネルのマイクアレイに対して、提案された実装は大幅な性能向上を達成した。NVIDIA GPUとARM Cortex-A78AE v8.2 64ビットCPUを搭載した組み込みデバイスであるJetson AGX Orinでは、GSVD計算で4645.1倍、SSLモジュールで8.8倍、GSVD計算で2223.4倍、SSLモジュール全体で8.また、NVIDIA A100 GPUとAMD EPYC 7352 CPUで構成されたサーバー上では、SSLモジュール全体で2223.4倍、8.95倍の高速化が確認され、大規模なマイクアレイでのリアルタイム処理が実現可能であり、後続の機械学習や深層学習タスクのリアルタイム処理に十分なキャパシティを提供しています。

要約(オリジナル)

Robot audition, encompassing Sound Source Localization (SSL), Sound Source Separation (SSS), and Automatic Speech Recognition (ASR), enables robots and smart devices to acquire auditory capabilities similar to human hearing. Despite their wide applicability, processing multi-channel audio signals from microphone arrays in SSL involves computationally intensive matrix operations, which can hinder efficient deployment on Central Processing Units (CPUs), particularly in embedded systems with limited CPU resources. This paper introduces a GPU-based implementation of SSL for robot audition, utilizing the Generalized Singular Value Decomposition-based Multiple Signal Classification (GSVD-MUSIC), a noise-robust algorithm, within the HARK platform, an open-source software suite. For a 60-channel microphone array, the proposed implementation achieves significant performance improvements. On the Jetson AGX Orin, an embedded device powered by an NVIDIA GPU and ARM Cortex-A78AE v8.2 64-bit CPUs, we observe speedups of 4645.1x for GSVD calculations and 8.8x for the SSL module, while speedups of 2223.4x for GSVD calculation and 8.95x for the entire SSL module on a server configured with an NVIDIA A100 GPU and AMD EPYC 7352 CPUs, making real-time processing feasible for large-scale microphone arrays and providing ample capacity for real-time processing of potential subsequent machine learning or deep learning tasks.

arxiv情報

著者 Zirui Lin,Masayuki Takigahira,Naoya Terakado,Haris Gulzar,Monikka Roslianna Busto,Takeharu Eda,Katsutoshi Itoyama,Kazuhiro Nakadai,Hideharu Amano
発行日 2025-04-04 11:44:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SD, eess.AS パーマリンク