Audio Editing with Non-Rigid Text Prompts

要約

このペーパーでは、非固定テキスト編集によるオーディオ編集について検討します。
提案された編集パイプラインが入力オーディオに忠実なオーディオ編集を作成できることを示します。
追加、スタイル転送、およびインペイントを実行するテキスト プロンプトについて説明します。
我々は、この編集により、最近リリースされたテキスト指示によるオーディオ生成モデルである Audio-LDM を上回る結果が得られることを定量的および定性的に示しています。
結果の定性的検査により、オーディオ イベントの元のオンセットとオフセットを維持するという点で、私たちのアプローチによって与えられた編集は入力オーディオにより忠実なままであることがわかります。

要約(オリジナル)

In this paper, we explore audio-editing with non-rigid text edits. We show that the proposed editing pipeline is able to create audio edits that remain faithful to the input audio. We explore text prompts that perform addition, style transfer, and in-painting. We quantitatively and qualitatively show that the edits are able to obtain results which outperform Audio-LDM, a recently released text-prompted audio generation model. Qualitative inspection of the results points out that the edits given by our approach remain more faithful to the input audio in terms of keeping the original onsets and offsets of the audio events.

arxiv情報

著者 Francesco Paissan,Zhepei Wang,Mirco Ravanelli,Paris Smaragdis,Cem Subakan
発行日 2023-10-19 16:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク