Siamese SIREN: Audio Compression with Implicit Neural Representations

要約

Implicit Neural Representations (INR) は、3D 形状、画像、音声などの多様なデータ モダリティを表現するための有望な方法として浮上しています。
最近の研究では、画像および 3D 形状の圧縮における INR の適用に成功していることが実証されていますが、音声圧縮における INR の可能性はほとんど解明されていません。
これを動機として、オーディオ圧縮における INR の使用に関する予備調査を紹介します。
私たちの研究では、人気のある SIREN アーキテクチャに基づく新しいアプローチである Siamese SIREN を紹介します。
私たちの実験結果は、Siamese SIREN が以前の INR アーキテクチャと比較してより少ないネットワーク パラメータを使用しながら、優れたオーディオ再構築忠実度を達成することを示しています。

要約(オリジナル)

Implicit Neural Representations (INRs) have emerged as a promising method for representing diverse data modalities, including 3D shapes, images, and audio. While recent research has demonstrated successful applications of INRs in image and 3D shape compression, their potential for audio compression remains largely unexplored. Motivated by this, we present a preliminary investigation into the use of INRs for audio compression. Our study introduces Siamese SIREN, a novel approach based on the popular SIREN architecture. Our experimental results indicate that Siamese SIREN achieves superior audio reconstruction fidelity while utilizing fewer network parameters compared to previous INR architectures.

arxiv情報

著者 Luca A. Lanzendörfer,Roger Wattenhofer
発行日 2023-06-22 15:16:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク