要約
雑音と残響のある音声混合物の音響変動は、ターゲット話者と干渉ノイズの分光時間特性、信号対雑音比 (SNR)、部屋の特性などの複数の要因の影響を受けます。
トレーニング条件とテスト条件の不一致によりシステムのパフォーマンスが大幅に低下する可能性があるため、この大きな変動は学習ベースの音声強調システムにとって大きな課題となります。
目に見えない状況への一般化は、通常、トレーニング中に使用したものとは異なる新しい音声、騒音、またはバイノーラル室内インパルス応答 (BRIR) データベースを使用してシステムをテストすることによって評価されます。
ただし、音声強調タスクの難易度はデータベースによって異なる可能性があり、結果に大きな影響を与える可能性があります。
本研究では、テスト条件でトレーニングされた参照モデルを使用する一般化評価フレームワークを導入し、テスト条件の難易度の代用として使用できます。
これにより、タスクの難易度の変化の影響と新しいデータの処理の影響を切り離すことができ、汎化ギャップと呼ばれる汎化パフォーマンスの新しい尺度を定義できます。
この手順は、一般化ギャップを正確に推定するために、複数の音声、ノイズ、および BRIR データベースを循環する相互検証方式で繰り返されます。
提案されたフレームワークは、フィードフォワード ニューラル ネットワーク (FFNN)、Conv-TasNet、DCCRN、および MANNER の一般化の可能性を評価するために適用されます。
すべてのモデルにおいて、音声の不一致でパフォーマンスが最も低下する一方で、複数のデータベースでトレーニングすることで良好なノイズと部屋の一般化が達成できることがわかりました。
さらに、最近のモデルは一致した条件では高いパフォーマンスを示しますが、不一致な条件ではパフォーマンスが大幅に低下し、FFNN ベースのシステムよりも劣る可能性があります。
要約(オリジナル)
The acoustic variability of noisy and reverberant speech mixtures is influenced by multiple factors, such as the spectro-temporal characteristics of the target speaker and the interfering noise, the signal-to-noise ratio (SNR) and the room characteristics. This large variability poses a major challenge for learning-based speech enhancement systems, since a mismatch between the training and testing conditions can substantially reduce the performance of the system. Generalization to unseen conditions is typically assessed by testing the system with a new speech, noise or binaural room impulse response (BRIR) database different from the one used during training. However, the difficulty of the speech enhancement task can change across databases, which can substantially influence the results. The present study introduces a generalization assessment framework that uses a reference model trained on the test condition, such that it can be used as a proxy for the difficulty of the test condition. This allows to disentangle the effect of the change in task difficulty from the effect of dealing with new data, and thus to define a new measure of generalization performance termed the generalization gap. The procedure is repeated in a cross-validation fashion by cycling through multiple speech, noise, and BRIR databases to accurately estimate the generalization gap. The proposed framework is applied to evaluate the generalization potential of a feedforward neural network (FFNN), Conv-TasNet, DCCRN and MANNER. We find that for all models, the performance degrades the most in speech mismatches, while good noise and room generalization can be achieved by training on multiple databases. Moreover, while recent models show higher performance in matched conditions, their performance substantially decreases in mismatched conditions and can become inferior to that of the FFNN-based system.
arxiv情報
著者 | Philippe Gonzalez,Tommy Sonne Alstrøm,Tobias May |
発行日 | 2023-09-12 12:51:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google