Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification

要約

本稿では、Text-To-Audio(TTA)モデルを用いて現実的なデータセットを生成するための効果的なプロンプト戦略の設計について検討する。また、これらのデータセットを効率的に組み合わせ、音声分類タスクにおける有用性を高めるための様々な手法を分析する。2つのTTAモデルを用いて2つの音声分類データセットを評価することにより、様々なプロンプト戦略を適用した。その結果、タスクに特化したプロンプト戦略は、データ生成において基本的なプロンプトアプローチを大幅に上回ることが明らかになった。さらに、異なるTTAモデルを用いて生成されたデータセットをマージすることで、単に学習データセットのサイズを増やすよりも効果的に分類性能が向上することが証明された。全体として、我々の結果は、合成データを用いた効果的なデータ増強技術としてのこれらの手法の利点を強調している。

要約(オリジナル)

This paper investigates the design of effective prompt strategies for generating realistic datasets using Text-To-Audio (TTA) models. We also analyze different techniques for efficiently combining these datasets to enhance their utility in sound classification tasks. By evaluating two sound classification datasets with two TTA models, we apply a range of prompt strategies. Our findings reveal that task-specific prompt strategies significantly outperform basic prompt approaches in data generation. Furthermore, merging datasets generated using different TTA models proves to enhance classification performance more effectively than merely increasing the training dataset size. Overall, our results underscore the advantages of these methods as effective data augmentation techniques using synthetic data.

arxiv情報

著者 Francesca Ronchini,Ho-Hsiang Wu,Wei-Cheng Lin,Fabio Antonacci
発行日 2025-04-04 10:14:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP パーマリンク