要約
自己回帰モデルは通常、離散トークンのシーケンスに適用されますが、最近の研究では、自己回帰的な方法で連続埋め込みのシーケンスを生成することも可能であることが示されています。
ただし、このような連続自己回帰モデル (CAM) は、推論中にエラーが蓄積するため、拡張されたシーケンスにわたって生成品質が低下する可能性があります。
トレーニング中に入力埋め込みにランダム ノイズを注入することで、この問題に対処する新しい方法を導入します。
この手順により、推論時のさまざまなエラー レベルに対してモデルが堅牢になります。
低レベルのノイズを導入する推論手順を通じて、誤差の蓄積をさらに削減します。
音楽的なオーディオ生成に関する実験では、CAM が拡張シーケンスにわたってオーディオ品質を維持しながら、既存の自己回帰アプローチおよび非自己回帰アプローチよりも大幅に優れたパフォーマンスを発揮することが示されています。
この研究により、純粋な自己回帰設定で連続埋め込みを生成する道が開かれ、リアルタイムでインタラクティブな生成アプリケーションの新たな可能性が開かれます。
要約(オリジナル)
Autoregressive models are typically applied to sequences of discrete tokens, but recent research indicates that generating sequences of continuous embeddings in an autoregressive manner is also feasible. However, such Continuous Autoregressive Models (CAMs) can suffer from a decline in generation quality over extended sequences due to error accumulation during inference. We introduce a novel method to address this issue by injecting random noise into the input embeddings during training. This procedure makes the model robust against varying error levels at inference. We further reduce error accumulation through an inference procedure that introduces low-level noise. Experiments on musical audio generation show that CAM substantially outperforms existing autoregressive and non-autoregressive approaches while preserving audio quality over extended sequences. This work paves the way for generating continuous embeddings in a purely autoregressive setting, opening new possibilities for real-time and interactive generative applications.
arxiv情報
著者 | Marco Pasini,Javier Nistal,Stefan Lattner,George Fazekas |
発行日 | 2024-11-27 15:38:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google