Stable Diffusion is a Natural Cross-Modal Decoder for Layered AI-generated Image Compression

要約

人工知能生成コンテンツ (AIGC) の最近の進歩は、膨大な数の AI 生成画像 (AIGI) を送信および圧縮する必要性の増大に伴い、大きな関心を集めています。
しかし、AIGI の圧縮方法に焦点を当てた研究には顕著な欠陥があります。
この重大なギャップに対処するために、AIGI にとって重要な視覚情報を効率的にキャプチャして中継するように設計された、人間が理解できる複数のモダリティを組み込んだスケーラブルなクロスモーダル圧縮フレームワークを導入します。
特に、私たちのフレームワークは、テキスト プロンプトを通じて高レベルのセマンティック情報を提供するセマンティック レイヤーで構成される階層化されたビットストリームに画像をエンコードします。
エッジまたはスケルトン マップを使用して空間の詳細をキャプチャする構造レイヤー。
カラーマップを介してローカル テクスチャを保存するテクスチャ レイヤー。
バックエンドとして安定拡散を利用するこのフレームワークは、画像生成にこれらのマルチモーダル事前分布を効果的に活用し、これらの事前分布がエンコードされるときにデコーダとして効果的に機能します。
定性的および定量的結果は、私たちの方法が意味論的詳細と視覚的詳細の両方をうまく復元し、非常に低いビットレート (<0.02 bpp) でのベースライン アプローチと競合することを示しています。 さらに、私たちのフレームワークは完全なデコードを必要とせずにダウンストリーム編集アプリケーションを容易にし、それによって AIGI 圧縮における将来の研究に新たな方向性を切り開きます。

要約(オリジナル)

Recent advances in Artificial Intelligence Generated Content (AIGC) have garnered significant interest, accompanied by an increasing need to transmit and compress the vast number of AI-generated images (AIGIs). However, there is a noticeable deficiency in research focused on compression methods for AIGIs. To address this critical gap, we introduce a scalable cross-modal compression framework that incorporates multiple human-comprehensible modalities, designed to efficiently capture and relay essential visual information for AIGIs. In particular, our framework encodes images into a layered bitstream consisting of a semantic layer that delivers high-level semantic information through text prompts; a structural layer that captures spatial details using edge or skeleton maps; and a texture layer that preserves local textures via a colormap. Utilizing Stable Diffusion as the backend, the framework effectively leverages these multimodal priors for image generation, effectively functioning as a decoder when these priors are encoded. Qualitative and quantitative results show that our method proficiently restores both semantic and visual details, competing against baseline approaches at extremely low bitrates ( <0.02 bpp). Additionally, our framework facilitates downstream editing applications without requiring full decoding, thereby paving a new direction for future research in AIGI compression.

arxiv情報

著者 Ruijie Chen,Qi Mao,Zhengxue Cheng
発行日 2024-12-17 15:01:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク