Speech Boosting: Low-Latency Live Speech Enhancement for TWS Earbuds

要約

このペーパーでは、デバイス上での真のワイヤレス ステレオ (TWS) イヤホンの使用に合わせて調整された音声強調ソリューションを紹介します。
このソリューションは、アクティブ ノイズ キャンセリング (ANC) を有効にして、騒がしい環境での会話をサポートするように特別に設計されました。
このコンテキストにおける音声強調モデルの主な課題は、デバイス上の使用量を制限する計算の複雑さと、ライブの会話を維持するために 3 ミリ秒未満にする必要がある遅延から生じます。
これらの問題に対処するために、ネットワーク アーキテクチャとドメイン、損失関数の設計、プルーニング方法、ハードウェア固有の最適化など、いくつかの重要な設計要素を評価しました。
その結果、ベースライン モデルと比較して音声強調品質が大幅に向上すると同時に、計算​​の複雑さとアルゴリズムの遅延が軽減されることが実証されました。

要約(オリジナル)

This paper introduces a speech enhancement solution tailored for true wireless stereo (TWS) earbuds on-device usage. The solution was specifically designed to support conversations in noisy environments, with active noise cancellation (ANC) activated. The primary challenges for speech enhancement models in this context arise from computational complexity that limits on-device usage and latency that must be less than 3 ms to preserve a live conversation. To address these issues, we evaluated several crucial design elements, including the network architecture and domain, design of loss functions, pruning method, and hardware-specific optimization. Consequently, we demonstrated substantial improvements in speech enhancement quality compared with that in baseline models, while simultaneously reducing the computational complexity and algorithmic latency.

arxiv情報

著者 Hanbin Bae,Pavel Andreev,Azat Saginbaev,Nicholas Babaev,Won-Jun Lee,Hosang Sung,Hoon-Young Cho
発行日 2024-09-27 12:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP パーマリンク