Spectral oversubtraction? An approach for speech enhancement after robot ego speech filtering in semi-real-time

要約

スペクトル減算は、その単純さから広く使用されており、ロボットの発話時のシングルチャンネルマイク録音から人間の割り込みによる音声内容を検出するロボット自我音声フィルタリング(RESF)問題に対処するために採用されています。
ただし、このアプローチでは基本周波数範囲 (FFR) での過剰な減算が発生し、音声内容認識の低下につながります。
これに対処するために、検出された音声を強化し、認識結果を向上させるために、2 マスクコンフォーマーベースのメトリック生成敵対的ネットワーク (CMGAN) を提案します。
私たちのモデルは、高周波情報と長期特徴で過剰に差し引かれた FFR 値を補正し、新しいスペクトログラムのノイズを除去します。
さらに、長い固定長入力でトレーニングされたネットワーク上でストリーミング入力による半リアルタイムのオーディオ処理を可能にするインクリメンタル処理手法を導入します。
目に見えないノイズを含む 2 つのデータセットの評価では、認識精度の大幅な改善と、提案された 2 マスク アプローチと増分処理の有効性が実証され、現実世界の HRI シナリオにおける提案された RESF パイプラインの堅牢性が強化されました。

要約(オリジナル)

Spectral subtraction, widely used for its simplicity, has been employed to address the Robot Ego Speech Filtering (RESF) problem for detecting speech contents of human interruption from robot’s single-channel microphone recordings when it is speaking. However, this approach suffers from oversubtraction in the fundamental frequency range (FFR), leading to degraded speech content recognition. To address this, we propose a Two-Mask Conformer-based Metric Generative Adversarial Network (CMGAN) to enhance the detected speech and improve recognition results. Our model compensates for oversubtracted FFR values with high-frequency information and long-term features and then de-noises the new spectrogram. In addition, we introduce an incremental processing method that allows semi-real-time audio processing with streaming input on a network trained on long fixed-length input. Evaluations of two datasets, including one with unseen noise, demonstrate significant improvements in recognition accuracy and the effectiveness of the proposed two-mask approach and incremental processing, enhancing the robustness of the proposed RESF pipeline in real-world HRI scenarios.

arxiv情報

著者 Yue Li,Koen V. Hindriks,Florian A. Kunneman
発行日 2024-09-10 07:24:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.RO, cs.SD, eess.AS パーマリンク