An Efficient GPU-based Implementation for Noise Robust Sound Source Localization

要約

サウンドソースのローカリゼーション(SSL)、サウンドソース分離(SSS)、および自動音声認識(ASR)を含むロボットオーディションにより、ロボットとスマートデバイスは人間の聴覚と同様の聴覚機能を獲得できます。
幅広い適用性にもかかわらず、SSLのマイクアレイからのマルチチャネルオーディオ信号の処理には、計算集中的なマトリックス操作が含まれます。これは、特にCPUリソースが限られている埋め込まれたシステムで、中央処理ユニット(CPU)で効率的な展開を妨げる可能性があります。
このペーパーでは、ロボットオーディション用のSSLのGPUベースの実装を紹介します。これは、一般化された特異値分解ベースのマルチシグナル分類(GSVD-Music)であり、ノイズ – ロバストアルゴリズムであるHarkプラットフォーム内で、オープンソースソフトウェアスイートです。
60チャンネルのマイクアレイの場合、提案された実装は大幅なパフォーマンスの改善を達成します。
NVIDIA GPUおよびARM Cortex-A78AE V8.2 64ビットCPUを搭載した埋め込まれたデバイスであるJetson AGX Orinでは、GSVD計算のために5648.7xのスピードアップ、SSLモジュールのSSLモジュールの10.7xのスピードアップ、SSL Modubleの4245.1xの4245.1xのスピードアップが観察されます。
NVIDIA A100 GPUおよびAMD EPYC 7352 CPUを使用して、大規模なマイクアレイでリアルタイム処理を実行可能にし、潜在的なその後の機械学習またはディープラーニングタスクのリアルタイム処理のための十分な能力を提供します。

要約(オリジナル)

Robot audition, encompassing Sound Source Localization (SSL), Sound Source Separation (SSS), and Automatic Speech Recognition (ASR), enables robots and smart devices to acquire auditory capabilities similar to human hearing. Despite their wide applicability, processing multi-channel audio signals from microphone arrays in SSL involves computationally intensive matrix operations, which can hinder efficient deployment on Central Processing Units (CPUs), particularly in embedded systems with limited CPU resources. This paper introduces a GPU-based implementation of SSL for robot audition, utilizing the Generalized Singular Value Decomposition-based Multiple Signal Classification (GSVD-MUSIC), a noise-robust algorithm, within the HARK platform, an open-source software suite. For a 60-channel microphone array, the proposed implementation achieves significant performance improvements. On the Jetson AGX Orin, an embedded device powered by an NVIDIA GPU and ARM Cortex-A78AE v8.2 64-bit CPUs, we observe speedups of 5648.7x for GSVD calculations and 10.7x for the SSL module, while speedups of 4245.1x for GSVD calculation and 17.3x for the entire SSL module on a server configured with an NVIDIA A100 GPU and AMD EPYC 7352 CPUs, making real-time processing feasible for large-scale microphone arrays and providing ample capacity for real-time processing of potential subsequent machine learning or deep learning tasks.

arxiv情報

著者 Zirui Lin,Masayuki Takigahira,Naoya Terakado,Haris Gulzar,Monikka Roslianna Busto,Takeharu Eda,Katsutoshi Itoyama,Kazuhiro Nakadai,Hideharu Amano
発行日 2025-05-08 07:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SD, eess.AS パーマリンク