要約
最近、リモート会議が広く採用されるようになったことで、音声コミュニケーションが歪んだり不明瞭になったりするという不満が随所に発生しています。
オーディオ強化では、ノイズ抑制技術を適用することで、小型の完全ワイヤレスイヤホンなどからの低品質の入力信号を補償できます。
このような処理は、低遅延の音声アクティビティ検出 (VAD) と、着用者の声を他の人の声から区別する追加機能に依存しており、これはかなりの計算量を必要とします。
しかし、現代のイヤホンのような小型デバイスのエネルギー予算は厳しいため、この問題に取り組むシステムは、ユーザビリティ上の懸念から話者固有の音声サンプルやトレーニングに依存せず、最小限の電力と処理オーバーヘッドで取り組む必要があります。
この論文では、新しい市販の MEMS 骨伝導マイクをベースにした低電力ワイヤレスイヤホン用のカスタム研究プラットフォームの設計と実装について説明します。
このようなマイクロフォンは、装着者の音声をはるかに分離して録音できるため、個人化された音声アクティビティの検出やさらなる音声強化アプリケーションが可能になります。
さらに、この論文は、骨伝導データと実装された研究プラットフォーム上で実行されるリカレント ニューラル ネットワークに基づいて、提案された低電力の個人化された音声検出アルゴリズムを正確に評価します。
このアルゴリズムは、従来のマイク入力に基づくアプローチと比較されます。
骨伝導システムの性能を評価し、12.8ms以内に95%の精度で音声を検出します。
さまざまな SoC の選択肢が対比されており、最先端の Ambiq Apollo 4 Blue SoC に基づく最終実装では、推論あたり 14uJ で平均消費電力 2.64mW を達成し、小型 32mAh リチウムイオン セルでデューティ サイクルなしでバッテリー寿命 43 時間に達します。
要約(オリジナル)
The recent ubiquitous adoption of remote conferencing has been accompanied by omnipresent frustration with distorted or otherwise unclear voice communication. Audio enhancement can compensate for low-quality input signals from, for example, small true wireless earbuds, by applying noise suppression techniques. Such processing relies on voice activity detection (VAD) with low latency and the added capability of discriminating the wearer’s voice from others – a task of significant computational complexity. The tight energy budget of devices as small as modern earphones, however, requires any system attempting to tackle this problem to do so with minimal power and processing overhead, while not relying on speaker-specific voice samples and training due to usability concerns. This paper presents the design and implementation of a custom research platform for low-power wireless earbuds based on novel, commercial, MEMS bone-conduction microphones. Such microphones can record the wearer’s speech with much greater isolation, enabling personalized voice activity detection and further audio enhancement applications. Furthermore, the paper accurately evaluates a proposed low-power personalized speech detection algorithm based on bone conduction data and a recurrent neural network running on the implemented research platform. This algorithm is compared to an approach based on traditional microphone input. The performance of the bone conduction system, achieving detection of speech within 12.8ms at an accuracy of 95\% is evaluated. Different SoC choices are contrasted, with the final implementation based on the cutting-edge Ambiq Apollo 4 Blue SoC achieving 2.64mW average power consumption at 14uJ per inference, reaching 43h of battery life on a miniature 32mAh li-ion cell and without duty cycling.
arxiv情報
著者 | Philipp Schilk,Niccolò Polvani,Andrea Ronco,Milos Cernak,Michele Magno |
発行日 | 2023-09-05 17:04:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google