要約
急速に進化する音声生成モデルの分野では、音声複製のリスクに対して音声の信頼性を確保することが急務となっています。
AI が生成した音声の局所的な検出に特化して設計された初の音声透かし技術である AudioSeal を紹介します。
AudioSeal は、サンプル レベルまでの局所的な透かし検出を可能にする定位損失と共同でトレーニングされたジェネレーター/検出器アーキテクチャと、AudioSeal がより優れた知覚不能性を達成できるようにする聴覚マスキングからインスピレーションを得た新しい知覚損失を採用しています。
AudioSeal は、現実のオーディオ操作に対する堅牢性と、自動および人間の評価基準に基づく知覚不可能性の点で、最先端のパフォーマンスを実現します。
さらに、AudioSeal は高速なシングルパス検出器を使用して設計されており、既存のモデルを大幅に上回る速度で、最大 2 桁高速の検出を実現し、大規模なリアルタイム アプリケーションに最適です。
要約(オリジナル)
In the rapidly evolving field of speech generative models, there is a pressing need to ensure audio authenticity against the risks of voice cloning. We present AudioSeal, the first audio watermarking technique designed specifically for localized detection of AI-generated speech. AudioSeal employs a generator/detector architecture trained jointly with a localization loss to enable localized watermark detection up to the sample level, and a novel perceptual loss inspired by auditory masking, that enables AudioSeal to achieve better imperceptibility. AudioSeal achieves state-of-the-art performance in terms of robustness to real life audio manipulations and imperceptibility based on automatic and human evaluation metrics. Additionally, AudioSeal is designed with a fast, single-pass detector, that significantly surpasses existing models in speed – achieving detection up to two orders of magnitude faster, making it ideal for large-scale and real-time applications.
arxiv情報
著者 | Robin San Roman,Pierre Fernandez,Alexandre Défossez,Teddy Furon,Tuan Tran,Hady Elsahar |
発行日 | 2024-06-06 17:48:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google