要約
最近の音声プライバシーの取り組みのほとんどは、音響話者の属性を匿名化することに重点を置いていますが、音声コンテンツから情報を保護することについてはあまり研究されていません。
音声中の選択された単語やフレーズを隠す「コンテンツ マスキング」と呼ばれる、新たなタイプのプライバシーを探るおもちゃの問題を紹介します。
この問題空間を定義する取り組みにおいて、事前トレーニングされたベクトル量子化変分オートエンコーダ (VQ-VAE) から生成され、WaveRNN を使用して再合成された離散音表現 (音コード) のシーケンスの変更に基づいて、導入ベースライン マスキング手法を評価します。
。
3 つの異なるマスキング位置と 3 種類のマスキング戦略 (ノイズ置換、単語削除、および音系列反転) を調査します。
私たちの研究では、マスキングが 2 つの下流タスク、自動音声認識 (ASR) と自動話者検証 (ASV) にどのような影響を与えるかを特徴づけようとしています。
私たちは、さまざまなマスクの種類と場所が下流のタスクにどのような影響を与えるかを観察し、これらの問題がプライバシーの目標にどのように影響するかを議論します。
要約(オリジナル)
Most recent speech privacy efforts have focused on anonymizing acoustic speaker attributes but there has not been as much research into protecting information from speech content. We introduce a toy problem that explores an emerging type of privacy called ‘content masking’ which conceals selected words and phrases in speech. In our efforts to define this problem space, we evaluate an introductory baseline masking technique based on modifying sequences of discrete phone representations (phone codes) produced from a pre-trained vector-quantized variational autoencoder (VQ-VAE) and re-synthesized using WaveRNN. We investigate three different masking locations and three types of masking strategies: noise substitution, word deletion, and phone sequence reversal. Our work attempts to characterize how masking affects two downstream tasks: automatic speech recognition (ASR) and automatic speaker verification (ASV). We observe how the different masks types and locations impact these downstream tasks and discuss how these issues may influence privacy goals.
arxiv情報
著者 | Jennifer Williams,Karla Pizzi,Paul-Gauthier Noe,Sneha Das |
発行日 | 2024-01-08 14:56:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google