要約
最新のセンサーは、ますます豊富な高解像度データのストリームを生成します。
リソースの制約により、機械学習システムは解像度を下げることでこの情報の大部分を破棄します。
圧縮ドメイン学習により、モデルがコンパクトな潜在表現で動作できるようになり、同じ予算でより高い効果的な解像度が可能になります。
ただし、既存の圧縮システムは圧縮学習には理想的ではありません。
線形変換コーディングとエンドツーエンド学習圧縮システムはビットレートを削減しますが、次元を一律に削減するわけではありません。
したがって、効率を大幅に向上させることはできません。
生成オートエンコーダは次元を削減しますが、その敵対的または知覚的な目的により、重大な情報損失が発生します。
これらの制限に対処するために、線形変換コーディングと非線形次元削減オートエンコーダを組み合わせたニューラル コーデック アーキテクチャである WaLLoC (ウェーブレット学習非可逆圧縮) を導入します。
WaLLoC は、可逆ウェーブレット パケット変換の間に浅い非対称オートエンコーダとエントロピー ボトルネックを挟みます。
いくつかの主要な指標において、WalLoC は最先端の潜在拡散モデルで使用されるオートエンコーダーよりも優れたパフォーマンスを示します。
WaLLoC は、高周波の詳細を表現するために知覚的損失や敵対的損失を必要とせず、RGB 画像やステレオ オーディオを超えたモダリティとの互換性を提供します。
WaLLoC のエンコーダは、ほぼ完全に線形演算で構成されているため、非常に効率的で、モバイル コンピューティング、リモート センシング、圧縮データからの直接学習に適しています。
画像分類、カラー化、文書理解、音楽ソース分離など、いくつかのタスクにわたる圧縮ドメイン学習に対する WaLLoC の機能を実証します。
コード、実験、および事前トレーニングされた音声および画像コーデックは、https://ut-sysml.org/walloc で入手できます。
要約(オリジナル)
Modern sensors produce increasingly rich streams of high-resolution data. Due to resource constraints, machine learning systems discard the vast majority of this information via resolution reduction. Compressed-domain learning allows models to operate on compact latent representations, allowing higher effective resolution for the same budget. However, existing compression systems are not ideal for compressed learning. Linear transform coding and end-to-end learned compression systems reduce bitrate, but do not uniformly reduce dimensionality; thus, they do not meaningfully increase efficiency. Generative autoencoders reduce dimensionality, but their adversarial or perceptual objectives lead to significant information loss. To address these limitations, we introduce WaLLoC (Wavelet Learned Lossy Compression), a neural codec architecture that combines linear transform coding with nonlinear dimensionality-reducing autoencoders. WaLLoC sandwiches a shallow, asymmetric autoencoder and entropy bottleneck between an invertible wavelet packet transform. Across several key metrics, WaLLoC outperforms the autoencoders used in state-of-the-art latent diffusion models. WaLLoC does not require perceptual or adversarial losses to represent high-frequency detail, providing compatibility with modalities beyond RGB images and stereo audio. WaLLoC’s encoder consists almost entirely of linear operations, making it exceptionally efficient and suitable for mobile computing, remote sensing, and learning directly from compressed data. We demonstrate WaLLoC’s capability for compressed-domain learning across several tasks, including image classification, colorization, document understanding, and music source separation. Our code, experiments, and pre-trained audio and image codecs are available at https://ut-sysml.org/walloc
arxiv情報
著者 | Dan Jacobellis,Neeraja J. Yadwadkar |
発行日 | 2024-12-12 16:09:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google