要約
生成オーディオ合成と編集技術の急速な増殖は、著作権侵害、データの起源、およびディープフェイクオーディオによる誤報のspread延について大きな懸念を提起しました。
透かしは、感知できない、識別可能な、および追跡可能なマークをオーディオコンテンツに埋め込むことにより、積極的なソリューションを提供します。
WavmarkやAudiosealなどの最近のニューラルネットワークベースの透かしは、堅牢性と品質が向上しましたが、堅牢な検出と正確な帰属の両方を同時に達成するのに苦労しています。
このペーパーでは、発電機と検出器の間で部分的なパラメーター共有を活用することにより、このギャップ、効率的なメッセージ検索の交差メカニズム、および改善されたメッセージ分布のための時間的条件付けモジュールを活用することにより、このギャップを埋めるクロスアテンションの堅牢なオーディオウォーターマーク(Xattnmark)を紹介します。
さらに、微調整された聴覚マスキング効果をキャプチャし、透かしの知覚性を高める精神音響整列の時間周波数マスキング損失を提案します。
私たちのアプローチは、検出と帰属の両方で最先端のパフォーマンスを達成し、強力な編集強度を備えた挑戦的な生成編集を含む、広範囲のオーディオ変換に対する優れた堅牢性を示しています。
プロジェクトWebページは、https://liuyixin-louis.github.io/xattnmark/で入手できます。
要約(オリジナル)
The rapid proliferation of generative audio synthesis and editing technologies has raised significant concerns about copyright infringement, data provenance, and the spread of misinformation through deepfake audio. Watermarking offers a proactive solution by embedding imperceptible, identifiable, and traceable marks into audio content. While recent neural network-based watermarking methods like WavMark and AudioSeal have improved robustness and quality, they struggle to achieve both robust detection and accurate attribution simultaneously. This paper introduces Cross-Attention Robust Audio Watermark (XAttnMark), which bridges this gap by leveraging partial parameter sharing between the generator and the detector, a cross-attention mechanism for efficient message retrieval, and a temporal conditioning module for improved message distribution. Additionally, we propose a psychoacoustic-aligned temporal-frequency masking loss that captures fine-grained auditory masking effects, enhancing watermark imperceptibility. Our approach achieves state-of-the-art performance in both detection and attribution, demonstrating superior robustness against a wide range of audio transformations, including challenging generative editing with strong editing strength. The project webpage is available at https://liuyixin-louis.github.io/xattnmark/.
arxiv情報
著者 | Yixin Liu,Lie Lu,Jihui Jin,Lichao Sun,Andrea Fanelli |
発行日 | 2025-02-06 17:15:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google