要約
テキストからオーディオモデルは最近、テキストの説明からサウンドを生成するための強力なテクノロジーとして浮上しています。
しかし、彼らの高い計算的要求は、エネルギー消費と環境への影響に関する懸念を引き起こします。
このホワイトペーパーでは、7つの最先端のテキストからオーディオへの拡散ベースの生成モデルのエネルギー使用量の分析を実施し、生成パラメーターの変動が推論時間のエネルギー消費にどの程度影響するかを評価します。
また、選択したすべてのモデルでパレート最適ソリューションを考慮することにより、オーディオ品質とエネルギー消費の間の最適なバランスを特定することも目指しています。
私たちの調査結果は、パフォーマンスと環境への影響の間のトレードオフに関する洞察を提供し、より効率的な生成オーディオモデルの開発に貢献しています。
要約(オリジナル)
Text-to-audio models have recently emerged as a powerful technology for generating sound from textual descriptions. However, their high computational demands raise concerns about energy consumption and environmental impact. In this paper, we conduct an analysis of the energy usage of 7 state-of-the-art text-to-audio diffusion-based generative models, evaluating to what extent variations in generation parameters affect energy consumption at inference time. We also aim to identify an optimal balance between audio quality and energy consumption by considering Pareto-optimal solutions across all selected models. Our findings provide insights into the trade-offs between performance and environmental impact, contributing to the development of more efficient generative audio models.
arxiv情報
著者 | Riccardo Passoni,Francesca Ronchini,Luca Comanducci,Romain Serizel,Fabio Antonacci |
発行日 | 2025-05-12 14:36:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google