要約
深層学習の進歩に伴い、パーソナル アシスタント、感情コンピューティング、遠隔疾患診断に至るまで、音声ベースのアプリケーションが急成長しています。
音声には言語情報と準言語情報(声のピッチ、イントネーション、話速、音量など)の両方が含まれているため、話者のプライバシーとアイデンティティを保護するために音声の匿名化への関心が高まっています。
ここ数年、音声プライバシーの課題が表面化しており、言語コンテンツをそのまま維持しながら話者の身元を削除することに重点が置かれています。
ただし、感情コンピューティングや疾病監視アプリケーションの場合は、準言語コンテンツの方が重要になる可能性があります。
残念ながら、匿名化がこれらのシステムに与える影響はまだほとんどわかっていません。
この論文では、このギャップを埋め、特定の健康監視アプリケーションである音声ベースの 新型コロナウイルス感染症 (COVID-19) 診断に焦点を当てます。
私たちは、3 つの公開データセットを使用して、3 つの匿名化手法と 5 つの異なる最先端の COVID-19 診断システムに対するその影響をテストします。
匿名化手法の有効性を検証し、その計算複雑さを比較し、データセット内およびデータセット間の条件の両方について、さまざまなテスト シナリオにわたる影響を定量化します。
さらに、診断における音声のさまざまな側面の重要性を包括的に評価し、さまざまな種類の匿名化装置が音声の側面にどのような影響を与えるかを示しました。
最後に、匿名化によって見られる新型コロナウイルス感染症の診断精度の損失の一部を回復するために、匿名化された外部データをデータ拡張ツールとして使用する利点を示します。
要約(オリジナル)
With advances seen in deep learning, voice-based applications are burgeoning, ranging from personal assistants, affective computing, to remote disease diagnostics. As the voice contains both linguistic and para-linguistic information (e.g., vocal pitch, intonation, speech rate, loudness), there is growing interest in voice anonymization to preserve speaker privacy and identity. Voice privacy challenges have emerged over the last few years and focus has been placed on removing speaker identity while keeping linguistic content intact. For affective computing and disease monitoring applications, however, the para-linguistic content may be more critical. Unfortunately, the effects that anonymization may have on these systems are still largely unknown. In this paper, we fill this gap and focus on one particular health monitoring application: speech-based COVID-19 diagnosis. We test three anonymization methods and their impact on five different state-of-the-art COVID-19 diagnostic systems using three public datasets. We validate the effectiveness of the anonymization methods, compare their computational complexity, and quantify the impact across different testing scenarios for both within- and across-dataset conditions. Additionally, we provided a comprehensive evaluation of the importance of different speech aspects for diagnostics and showed how they are affected by different types of anonymizers. Lastly, we show the benefits of using anonymized external data as a data augmentation tool to help recover some of the COVID-19 diagnostic accuracy loss seen with anonymization.
arxiv情報
著者 | Yi Zhu,Mohamed Imoussaïne-Aïkous,Carolyn Côté-Lussier,Tiago H. Falk |
発行日 | 2024-06-26 17:58:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google