Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation and Recognition

要約

重複する話者、騒音、残響を含むカクテル パーティーのスピーチを正確に認識することは、現在でも非常に困難な課題です。
この論文では、音響信号の破損に対する視覚モダリティの不変性を動機として、すべてのシステムコンポーネントに視覚情報を完全に組み込むことを特徴とする、視聴覚マルチチャネル音声分離、残響除去および認識アプローチを提案します。
ビデオ入力の有効性は、マスクベースの MVDR 音声分離、DNN-WPE またはスペクトル マッピング (SpecM) ベースの音声残響除去フロントエンド、および Conformer ASR バックエンドで一貫して実証されています。
マスクベースの WPD を介してパイプライン方式または共同方式で音声分離と残響除去を実行するオーディオビジュアル統合フロントエンド アーキテクチャが調査されています。
音声強調フロントエンド コンポーネントと ASR バックエンド コンポーネント間のエラー コストの不一致は、ASR コスト関数のみを使用するか、ASR コスト関数と音声強調損失による補間を使用して、エンドツーエンドで共同で微調整することによって最小限に抑えられます。
実験は、オックスフォード LRS2 データセットのシミュレーションまたは再生を使用して構築された、重なり合った残響のある混合音声データに対して行われました。
提案されたオーディオビジュアルマルチチャネル音声分離、残響除去、および認識システムは、比較可能なオーディオのみのベースラインを常に上回り、単語誤り率 (WER) の絶対値 9.1% および 6.2% (相対値 41.7% および 36.0%) の削減を達成しました。
PESQ、STOI、SRMR スコアでも一貫した音声強調の改善が得られました。

要約(オリジナル)

Accurate recognition of cocktail party speech containing overlapping speakers, noise and reverberation remains a highly challenging task to date. Motivated by the invariance of visual modality to acoustic signal corruption, an audio-visual multi-channel speech separation, dereverberation and recognition approach featuring a full incorporation of visual information into all system components is proposed in this paper. The efficacy of the video input is consistently demonstrated in mask-based MVDR speech separation, DNN-WPE or spectral mapping (SpecM) based speech dereverberation front-end and Conformer ASR back-end. Audio-visual integrated front-end architectures performing speech separation and dereverberation in a pipelined or joint fashion via mask-based WPD are investigated. The error cost mismatch between the speech enhancement front-end and ASR back-end components is minimized by end-to-end jointly fine-tuning using either the ASR cost function alone, or its interpolation with the speech enhancement loss. Experiments were conducted on the mixture overlapped and reverberant speech data constructed using simulation or replay of the Oxford LRS2 dataset. The proposed audio-visual multi-channel speech separation, dereverberation and recognition systems consistently outperformed the comparable audio-only baseline by 9.1% and 6.2% absolute (41.7% and 36.0% relative) word error rate (WER) reductions. Consistent speech enhancement improvements were also obtained on PESQ, STOI and SRMR scores.

arxiv情報

著者 Guinan Li,Jiajun Deng,Mengzhe Geng,Zengrui Jin,Tianzi Wang,Shujie Hu,Mingyu Cui,Helen Meng,Xunying Liu
発行日 2023-07-06 10:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク