要約
近年、音声生成技術は、生成モデルと大規模なトレーニング技術によって急速に進歩しました。
これらの開発により、高品質の合成音声の生成が可能になりましたが、この技術の悪用、特に合成誤った情報の生成に対する懸念も生じています。
現在の研究は主に、機械が生成した音声と人間が生成した音声を区別することに焦点を当てていますが、より緊急の課題は、音声コンテンツ内の誤った情報を検出することです。
このタスクでは、話者のアイデンティティ、トピック、構成などの要素を徹底的に分析する必要があります。
このニーズに対処するために、オープンソース データセット SpMis を導入して、合成音声による誤った情報の検出に関する初期調査を実施します。
SpMis には、最先端のテキスト読み上げシステムを利用して、5 つの共通トピックにわたる 1,000 人以上の話者から合成された音声が含まれています。
私たちの結果は有望な検出能力を示していますが、実用化に向けた大きな課題も明らかにしており、この重要な分野で進行中の研究の重要性が強調されています。
要約(オリジナル)
In recent years, speech generation technology has advanced rapidly, fueled by generative models and large-scale training techniques. While these developments have enabled the production of high-quality synthetic speech, they have also raised concerns about the misuse of this technology, particularly for generating synthetic misinformation. Current research primarily focuses on distinguishing machine-generated speech from human-produced speech, but the more urgent challenge is detecting misinformation within spoken content. This task requires a thorough analysis of factors such as speaker identity, topic, and synthesis. To address this need, we conduct an initial investigation into synthetic spoken misinformation detection by introducing an open-source dataset, SpMis. SpMis includes speech synthesized from over 1,000 speakers across five common topics, utilizing state-of-the-art text-to-speech systems. Although our results show promising detection capabilities, they also reveal substantial challenges for practical implementation, underscoring the importance of ongoing research in this critical area.
arxiv情報
| 著者 | Peizhuo Liu,Li Wang,Renqiang He,Haorui He,Lei Wang,Huadi Zheng,Jie Shi,Tong Xiao,Zhizheng Wu | 
| 発行日 | 2024-09-17 16:05:09+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
