要約
私たちは、モバイルおよびウェアラブルプラットフォームに適した、音響および骨伝導音声強化のためのハイブリッドトランスとMambaアーキテクチャであるTRAMBAを提案します。
骨伝導音声強調は、いくつかの理由により、モバイルおよびウェアラブル プラットフォームに採用するのは現実的ではありません。(i) データ収集には労働集約的であり、その結果、データが不足します。
(ii) 数百 MB のメモリ フットプリントを備えた最先端のモデルと、リソースに制約のあるシステムにより適した方法との間には、パフォーマンスのギャップが存在します。
TRAMBA を振動ベースのセンシングモダリティに適応させるために、広く入手可能な音声音声データセットを使用して TRAMBA を事前トレーニングします。
次に、ユーザーは少量の骨伝導データを使用して微調整します。
TRAMBA は、最先端の GAN よりも PESQ で最大 7.3%、STOI で 1.8% 優れたパフォーマンスを発揮し、メモリ使用量が 1 桁小さく、推論速度が最大 465 倍になります。
我々は、TRAMBA を実際のシステムに統合し、TRAMBA (i) データのサンプリングと送信の必要性が減ることで、ウェアラブルのバッテリー寿命が最大 160% 向上することを示します。
(ii) 騒がしい環境では無線での音声よりも高品質の音声を生成します。
(iii) 必要なメモリ フットプリントは 20.0 MB 未満です。
要約(オリジナル)
We propose TRAMBA, a hybrid transformer and Mamba architecture for acoustic and bone conduction speech enhancement, suitable for mobile and wearable platforms. Bone conduction speech enhancement has been impractical to adopt in mobile and wearable platforms for several reasons: (i) data collection is labor-intensive, resulting in scarcity; (ii) there exists a performance gap between state of-art models with memory footprints of hundreds of MBs and methods better suited for resource-constrained systems. To adapt TRAMBA to vibration-based sensing modalities, we pre-train TRAMBA with audio speech datasets that are widely available. Then, users fine-tune with a small amount of bone conduction data. TRAMBA outperforms state-of-art GANs by up to 7.3% in PESQ and 1.8% in STOI, with an order of magnitude smaller memory footprint and an inference speed up of up to 465 times. We integrate TRAMBA into real systems and show that TRAMBA (i) improves battery life of wearables by up to 160% by requiring less data sampling and transmission; (ii) generates higher quality voice in noisy environments than over-the-air speech; (iii) requires a memory footprint of less than 20.0 MB.
arxiv情報
著者 | Yueyuan Sui,Minghui Zhao,Junxi Xia,Xiaofan Jiang,Stephen Xia |
発行日 | 2024-05-02 12:45:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google