要約
VoIP (Voice over Internet Protocol) 通信の範囲内では、音響変換によってもたらされる複雑さは厳密な分析に値します。
この研究は、独自の送信側ノイズ除去効果の探求に根ざしており、Google Meets や Zoom などのプラットフォームを注意深く評価しています。
この調査では、ディープ ノイズ抑制 (DNS) 2020 データセットを活用し、さまざまなノイズ除去設定と受信機インターフェイスに合わせて構造化された調査を保証します。
従来の計量経済ツールであるブラインダー・オアハカ分解を介して方法論的な新しさが導入されており、ここでは VoIP システム内の音響音声摂動を分析するために再利用されています。
これらの変換の影響をさらに根拠付けるために、音響心理学的指標、特に PESQ と STOI を使用して、知覚の質と明瞭度を説明しました。
蓄積的に得られた洞察は、VoIP の影響を受ける音響ダイナミクスの複雑な状況を浮き彫りにします。
主な発見に加えて、多数の指標が報告され、研究の範囲が広がります。
さらに、時間領域と時間周波数領域の両方の音声強調モデルの領域外ベンチマークが含まれているため、この調査の深さと適用性が強化されています。
要約(オリジナル)
Within the ambit of VoIP (Voice over Internet Protocol) telecommunications, the complexities introduced by acoustic transformations merit rigorous analysis. This research, rooted in the exploration of proprietary sender-side denoising effects, meticulously evaluates platforms such as Google Meets and Zoom. The study draws upon the Deep Noise Suppression (DNS) 2020 dataset, ensuring a structured examination tailored to various denoising settings and receiver interfaces. A methodological novelty is introduced via Blinder-Oaxaca decomposition, traditionally an econometric tool, repurposed herein to analyze acoustic-phonetic perturbations within VoIP systems. To further ground the implications of these transformations, psychoacoustic metrics, specifically PESQ and STOI, were used to explain of perceptual quality and intelligibility. Cumulatively, the insights garnered underscore the intricate landscape of VoIP-influenced acoustic dynamics. In addition to the primary findings, a multitude of metrics are reported, extending the research purview. Moreover, out-of-domain benchmarking for both time and time-frequency domain speech enhancement models is included, thereby enhancing the depth and applicability of this inquiry.
arxiv情報
著者 | Joseph Konan,Shikhar Agnihotri,Ojas Bhargave,Shuo Han,Yunyang Zeng,Ankit Shah,Bhiksha Raj |
発行日 | 2024-08-01 11:37:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google