How much to Dereverberate? Low-Latency Single-Channel Speech Enhancement in Distant Microphone Scenarios

要約

残響除去は、信号の明瞭度と品質を向上させる音声強調(SE)の重要なサブタスクである。しかし、残響は信号と高い相関があるため、依然として困難です。さらに、シングルチャンネルSEに関する文献は、短い残響時間(通常1秒以下)、小さな部屋(1000立方メートル以下)、比較的短い距離(最大2メートル)の部屋に焦点を当てています。本論文では、5mから10mといった遠距離のマイクロホンを想定し、会議室や劇場など、部屋の大きさや残響時間が大きい場所でのリアルタイムの低遅延シングルチャンネルSEを探求する。このような設定は、講義の実演、ドラマ、舞台音響の向上などの用途に有用である。第一に、このような困難なシナリオにおけるシングルチャンネルSEが実現可能であることを示す。次に、部屋の音量と残響時間の関係を調べ、部屋のインパルス応答をランダムにシミュレートする際の重要性を示します。最後に、短い残響時間で残響を除去する場合、部屋の伝達関数を減衰させる前に初期反射を保存することで、全体的な信号品質が向上することを示します。

要約(オリジナル)

Dereverberation is an important sub-task of Speech Enhancement (SE) to improve the signal’s intelligibility and quality. However, it remains challenging because the reverberation is highly correlated with the signal. Furthermore, the single-channel SE literature has predominantly focused on rooms with short reverb times (typically under 1 second), smaller rooms (under volumes of 1000 cubic meters) and relatively short distances (up to 2 meters). In this paper, we explore real-time low-latency single-channel SE under distant microphone scenarios, such as 5 to 10 meters, and focus on conference rooms and theatres, with larger room dimensions and reverberation times. Such a setup is useful for applications such as lecture demonstrations, drama, and to enhance stage acoustics. First, we show that single-channel SE in such challenging scenarios is feasible. Second, we investigate the relationship between room volume and reverberation time, and demonstrate its importance when randomly simulating room impulse responses. Lastly, we show that for dereverberation with short decay times, preserving early reflections before decaying the transfer function of the room improves overall signal quality.

arxiv情報

著者 Satvik Venkatesh,Philip Coleman,Arthur Benilov,Simon Brown,Selim Sheta,Frederic Roskam
発行日 2025-05-02 15:09:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.SD, eess.AS, I.5.1 パーマリンク