要約
暗黙的ニューラル表現 (INR) は、現在、画像の超解像、画像圧縮、3D レンダリングなど、さまざまな現実のアプリケーションでマルチメディア信号を表すために使用されています。
INR を活用する既存の方法は、画像ベースの INR モデルのアーキテクチャ属性に存在する誘導バイアスのために、音声などの他のモダリティへの適用が自明ではないため、主に視覚データに焦点を当てています。
この制限に対処するために、ハイパーネットワークを活用してトレーニングで観察されたサンプルを超えて一般化するオーディオ サンプルの INR を生成する最初のメタ学習アプローチである HyperSound を導入します。
私たちのアプローチは、他の最先端のモデルに匹敵する品質で音声サンプルを再構築し、スペクトログラムなどの音声処理用のディープ ニューラル ネットワークで使用される現代の音声表現に代わる実行可能な手段を提供します。
要約(オリジナル)
Implicit Neural Representations (INRs) are nowadays used to represent multimedia signals across various real-life applications, including image super-resolution, image compression, or 3D rendering. Existing methods that leverage INRs are predominantly focused on visual data, as their application to other modalities, such as audio, is nontrivial due to the inductive biases present in architectural attributes of image-based INR models. To address this limitation, we introduce HyperSound, the first meta-learning approach to produce INRs for audio samples that leverages hypernetworks to generalize beyond samples observed in training. Our approach reconstructs audio samples with quality comparable to other state-of-the-art models and provides a viable alternative to contemporary sound representations used in deep neural networks for audio processing, such as spectrograms.
arxiv情報
著者 | Filip Szatkowski,Karol J. Piczak,Przemysław Spurek,Jacek Tabor,Tomasz Trzciński |
発行日 | 2023-02-17 14:52:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google