Speech Enhancement for Virtual Meetings on Cellular Networks

要約

送信された音声にはバックグラウンド ノイズがあり、音声品質に影響を与える伝送損失があるセルラー デバイスでの仮想会議のために、深層学習 (DL) を使用した音声強調を研究しています。
ディープ ノイズ サプレッション (DNS) チャレンジ データセットには実際の障害が含まれていないため、T-Mobile ネットワークを介した Zoom ミーティングを使用して、送信された DNS (t-DNS) データセットを収集します。
Demucs と FullSubNet の 2 つのベースライン モデルを選択します。
Demucs は、時間領域の入力を取り、時間領域のノイズ除去された音声を出力するエンド ツー エンドのモデルであり、FullSubNet は、時間周波数領域の入力を取り、入力におけるターゲット音声のエネルギー比を出力します。
このプロジェクトの目標は、ディープ ラーニング モデルを使用してセルラー ネットワーク経由で送信される音声を強化することです。

要約(オリジナル)

We study speech enhancement using deep learning (DL) for virtual meetings on cellular devices, where transmitted speech has background noise and transmission loss that affects speech quality. Since the Deep Noise Suppression (DNS) Challenge dataset does not contain practical disturbance, we collect a transmitted DNS (t-DNS) dataset using Zoom Meetings over T-Mobile network. We select two baseline models: Demucs and FullSubNet. The Demucs is an end-to-end model that takes time-domain inputs and outputs time-domain denoised speech, and the FullSubNet takes time-frequency-domain inputs and outputs the energy ratio of the target speech in the inputs. The goal of this project is to enhance the speech transmitted over the cellular networks using deep learning models.

arxiv情報

著者 Hojeong Lee,Minseon Gwak,Kawon Lee,Minjeong Kim,Joseph Konan,Ojas Bhargave
発行日 2023-02-16 17:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク