要約
Text-to-Audio (TTA) 生成モデルは大幅に進歩し、詳細なコンテキスト理解による忠実度の高いオーディオを実現していますが、入力テキストに記述されたオーディオ イベント間の関係をモデル化するのは困難です。
ただし、これまでの TTA 手法では、オーディオ イベント関係モデリングを体系的に検討しておらず、この機能を強化するフレームワークも提案していませんでした。
この研究では、TTA 生成モデルにおけるオーディオ イベント関係モデリングを体系的に研究します。
まず、次のことによってこのタスクのベンチマークを確立します。 1. 現実世界のシナリオにおけるすべての潜在的な関係をカバーする包括的な関係コーパスを提案します。
2. 一般的に聞かれる音声を網羅した新しい音声イベント コーパスの導入。
3. オーディオ イベント関係モデリングをさまざまな観点から評価するための新しい評価指標を提案します。
さらに、既存の TTA モデルのオーディオ イベント関係をモデル化する機能を強化するための微調整フレームワークを提案します。
コードはhttps://github.com/yuhanghe01/RiTTAから入手できます。
要約(オリジナル)
Despite significant advancements in Text-to-Audio (TTA) generation models achieving high-fidelity audio with fine-grained context understanding, they struggle to model the relations between audio events described in the input text. However, previous TTA methods have not systematically explored audio event relation modeling, nor have they proposed frameworks to enhance this capability. In this work, we systematically study audio event relation modeling in TTA generation models. We first establish a benchmark for this task by: 1. proposing a comprehensive relation corpus covering all potential relations in real-world scenarios; 2. introducing a new audio event corpus encompassing commonly heard audios; and 3. proposing new evaluation metrics to assess audio event relation modeling from various perspectives. Furthermore, we propose a finetuning framework to enhance existing TTA models ability to model audio events relation. Code is available at: https://github.com/yuhanghe01/RiTTA
arxiv情報
著者 | Yuhang He,Yash Jain,Xubo Liu,Andrew Markham,Vibhav Vineet |
発行日 | 2024-12-20 14:14:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google