要約
タイトル: 暗黙的ニューラル表現のモダリティ非依存の可変圧縮
要約:
– データの機能的観点に基づいた、暗黙的ニューラル表現(INR)を用いたモダリティ非依存のニューラル圧縮アルゴリズムを提案する。
– 潜在的な符号化と疎密度のギャップを埋め、柔軟なゲーティングメカニズムへ非線形にマップされるコンパクトな潜在表現を得る。
– この特殊化されたINRネットワークを、各データ項目ごとにサブネットワークの選択を通して使用することができる。
– このような潜在表現のデータセットを取得した後、ニューラル圧縮を用いて、モダリティ非依存の空間でレート/歪みトレードオフを直接最適化する。
– VC-INRは、同じ表現能力の前処理量子化を行った場合に改善された性能を示し、他のINR技術に使用される従来の量子化スキームを上回った。
– VC-INRは様々なモダリティを含む広範なデータセットでの強力な結果を示し、モダリティ固有の帰納バイアスを必要としない同じアルゴリズムを使用して、画像、気候データ、3D形状やシーン、音声、ビデオについての成果を紹介する。
– VC-INRは、JPEG 2000、MP3、AVC / HEVCなどの広く知られたかつ多様なコーデックを圧倒する、最初のINRベースの方法として紹介される。
要約(オリジナル)
We introduce a modality-agnostic neural compression algorithm based on a functional view of data and parameterised as an Implicit Neural Representation (INR). Bridging the gap between latent coding and sparsity, we obtain compact latent representations non-linearly mapped to a soft gating mechanism. This allows the specialisation of a shared INR network to each data item through subnetwork selection. After obtaining a dataset of such latent representations, we directly optimise the rate/distortion trade-off in a modality-agnostic space using neural compression. Variational Compression of Implicit Neural Representations (VC-INR) shows improved performance given the same representational capacity pre quantisation while also outperforming previous quantisation schemes used for other INR techniques. Our experiments demonstrate strong results over a large set of diverse modalities using the same algorithm without any modality-specific inductive biases. We show results on images, climate data, 3D shapes and scenes as well as audio and video, introducing VC-INR as the first INR-based method to outperform codecs as well-known and diverse as JPEG 2000, MP3 and AVC/HEVC on their respective modalities.
arxiv情報
著者 | Jonathan Richard Schwarz,Jihoon Tack,Yee Whye Teh,Jaeho Lee,Jinwoo Shin |
発行日 | 2023-04-07 11:29:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI