要約
ニューラルオーディオ合成(NAS)モデルは、高品質で表現力のあるオーディオジェネレーターをインタラクティブな音楽制御を提供します。
これらのモデルはリアルタイムで動作する可能性がありますが、多くの場合、高い遅延に苦しむため、親密な音楽の相互作用には適していません。
オーディオレイテンシに対するディープラーニングモデルにおけるアーキテクチャの選択の影響は、NASの文献ではほとんど説明されていません。
この作業では、インタラクティブなNASモデルに通常見られるレイテンシとジッターの原因を調査します。
次に、Caillon et al。
2021年。最後に、レイテンシを最適化するための反復設計アプローチを提示します。
これは、私たちがBraveと呼ぶモデル(Bravely Realtime Audio Varionation Autoencoder)で頂点に達します。これは低遅延であり、Raveに似た音色の変更機能を示しながら、より良いピッチとラウドネスの複製を示します。
低遅延、リアルタイムの推論のための専門的な推論フレームワークに実装し、楽器からのオーディオ信号と互換性のある概念実証オーディオプラグインを提示します。
このドキュメントで説明されている課題とガイドラインは、NASの研究者がゼロから低遅延の推論のモデルを設計し、ミュージシャンの可能性の景観を豊かにすることをサポートすることを期待しています。
要約(オリジナル)
Neural Audio Synthesis (NAS) models offer interactive musical control over high-quality, expressive audio generators. While these models can operate in real-time, they often suffer from high latency, making them unsuitable for intimate musical interaction. The impact of architectural choices in deep learning models on audio latency remains largely unexplored in the NAS literature. In this work, we investigate the sources of latency and jitter typically found in interactive NAS models. We then apply this analysis to the task of timbre transfer using RAVE, a convolutional variational autoencoder for audio waveforms introduced by Caillon et al. in 2021. Finally, we present an iterative design approach for optimizing latency. This culminates with a model we call BRAVE (Bravely Realtime Audio Variational autoEncoder), which is low-latency and exhibits better pitch and loudness replication while showing timbre modification capabilities similar to RAVE. We implement it in a specialized inference framework for low-latency, real-time inference and present a proof-of-concept audio plugin compatible with audio signals from musical instruments. We expect the challenges and guidelines described in this document to support NAS researchers in designing models for low-latency inference from the ground up, enriching the landscape of possibilities for musicians.
arxiv情報
著者 | Franco Caspe,Jordie Shier,Mark Sandler,Charalampos Saitis,Andrew McPherson |
発行日 | 2025-03-14 16:30:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google