Audio Texture Manipulation by Exemplar-Based Analogy

要約

オーディオ テクスチャの操作には、聴覚要素の追加、削除、置換などの特定の変換を実現するためにサウンドの知覚特性を変更することが含まれます。
この論文では、オーディオテクスチャ操作のためのサンプルベースの類似モデルを提案します。
テキストベースの指示に基づいて条件付けする代わりに、私たちの方法では、ペアの音声サンプルを使用します。1 つのクリップは元のサウンドを表し、もう 1 つは目的の変換を示します。
モデルは同じ変換を新しい入力に適用することを学習し、サウンド テクスチャの操作を可能にします。
さまざまな編集タスクを表す 4 つ組のデータセットを構築し、自己教師ありの方法で潜在拡散モデルをトレーニングします。
私たちは、定量的評価と知覚研究を通じて、私たちのモデルがテキスト条件付きベースラインを上回っており、現実世界、配布外、および音声以外のシナリオに一般化できることを示しています。
プロジェクトページ: https://berkeley-speech-group.github.io/audio-texture-analogy/

要約(オリジナル)

Audio texture manipulation involves modifying the perceptual characteristics of a sound to achieve specific transformations, such as adding, removing, or replacing auditory elements. In this paper, we propose an exemplar-based analogy model for audio texture manipulation. Instead of conditioning on text-based instructions, our method uses paired speech examples, where one clip represents the original sound and another illustrates the desired transformation. The model learns to apply the same transformation to new input, allowing for the manipulation of sound textures. We construct a quadruplet dataset representing various editing tasks, and train a latent diffusion model in a self-supervised manner. We show through quantitative evaluations and perceptual studies that our model outperforms text-conditioned baselines and generalizes to real-world, out-of-distribution, and non-speech scenarios. Project page: https://berkeley-speech-group.github.io/audio-texture-analogy/

arxiv情報

著者 Kan Jen Cheng,Tingle Li,Gopala Anumanchipalli
発行日 2025-01-21 18:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク