要約
ニューラル音声編集の進歩により、なりすまし攻撃における悪用に対する懸念が生じています。
従来の部分的に編集された音声コーパスは主にカット アンド ペースト編集に焦点を当てており、話者の一貫性は維持されますが、多くの場合、検出可能な不連続性が生じます。
A\textsuperscript{3}T や Voicebox などの最近のメソッドは、コンテキスト情報を活用してトランジションを改善します。
スプーフィング検出の研究を促進するために、Voicebox で作成された Speech INfilling Edit (SINE) データセットを導入します。
Voicebox トレーニングとデータセット作成を再実装するプロセスについて詳しく説明しました。
主観的な評価により、この新しい技術を使用して編集された音声は、従来のカット アンド ペーストの方法よりも検出が困難であることが確認されています。
人間による困難にもかかわらず、実験結果は、自己教師ベースの検出器が、さまざまな編集方法にわたって検出、位置特定、一般化において顕著なパフォーマンスを達成できることを示しています。
データセットと関連モデルは一般に公開されます。
要約(オリジナル)
Neural speech editing advancements have raised concerns about their misuse in spoofing attacks. Traditional partially edited speech corpora primarily focus on cut-and-paste edits, which, while maintaining speaker consistency, often introduce detectable discontinuities. Recent methods, like A\textsuperscript{3}T and Voicebox, improve transitions by leveraging contextual information. To foster spoofing detection research, we introduce the Speech INfilling Edit (SINE) dataset, created with Voicebox. We detailed the process of re-implementing Voicebox training and dataset creation. Subjective evaluations confirm that speech edited using this novel technique is more challenging to detect than conventional cut-and-paste methods. Despite human difficulty, experimental results demonstrate that self-supervised-based detectors can achieve remarkable performance in detection, localization, and generalization across different edit methods. The dataset and related models will be made publicly available.
arxiv情報
著者 | Sung-Feng Huang,Heng-Cheng Kuo,Zhehuai Chen,Xuesong Yang,Chao-Han Huck Yang,Yu Tsao,Yu-Chiang Frank Wang,Hung-yi Lee,Szu-Wei Fu |
発行日 | 2025-01-07 14:17:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google