HyperSound: Generating Implicit Neural Representations of Audio Signals with Hypernetworks

要約

暗黙的ニューラル表現 (INR) は急速に成長している研究分野であり、マルチメディア信号を表現する代替方法を提供します。
INR の最近の用途には、画像の超解像度、高次元信号の圧縮、または 3D レンダリングなどがあります。
ただし、これらのソリューションは通常、視覚データに焦点を当てており、それらをオーディオ領域に適応させるのは簡単ではありません。
さらに、データ サンプルごとに個別にトレーニングされたモデルが必要です。
この制限に対処するために、私たちは、ハイパーネットワークを利用してトレーニング時に表示されないオーディオ信号の INR を生成するメタ学習方法である HyperSound を提案します。
私たちのアプローチが他の最先端のモデルと同等の品質で音波を再構築できることを示します。

要約(オリジナル)

Implicit neural representations (INRs) are a rapidly growing research field, which provides alternative ways to represent multimedia signals. Recent applications of INRs include image super-resolution, compression of high-dimensional signals, or 3D rendering. However, these solutions usually focus on visual data, and adapting them to the audio domain is not trivial. Moreover, it requires a separately trained model for every data sample. To address this limitation, we propose HyperSound, a meta-learning method leveraging hypernetworks to produce INRs for audio signals unseen at training time. We show that our approach can reconstruct sound waves with quality comparable to other state-of-the-art models.

arxiv情報

著者 Filip Szatkowski,Karol J. Piczak,Przemysław Spurek,Jacek Tabor,Tomasz Trzciński
発行日 2024-01-25 16:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, cs.SD, eess.AS パーマリンク