Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields

要約

AIGC Foundationモデルの急速な発展は、画像圧縮のパラダイムに革命をもたらし、ほとんどのピクセルレベルの変換とコーディングの放棄の道を開き、AIGCファンデーションモデルが何を生成できるかを生成できるものを圧縮することを強要します。
幸いなことに、OpenAIの最近のGPT-4O画像生成は、印象的なクロスモダリティの生成、編集、設計機能を達成しました。
この作業では、2つの典型的な圧縮パラダイムを調査します。テキストコーディングとマルチモーダルコーディング(つまり、テキスト +非常に低解像度画像)。これは、高度なGPT-4o画像生成関数を介して圧縮する代わりにすべて/ほとんどのピクセルレベルの情報が生成されます。
本質的な課題は、デコードプロセス中にセマンティックと構造の一貫性を維持する方法にあります。
これを克服するために、GPT-4O画像生成の条件として圧縮される画像をテキスト空間に変換するための構造ラスタースキャンプロンプトエンジニアリングメカニズムを提案します。
広範な実験により、設計された構造ラスタースキャンプロンプトとGPT-4Oの画像生成関数の組み合わせが、最近の超低ビットレートでの最近のマルチモーダル/生成画像圧縮と比較して印象的なパフォーマンスを達成し、さらに画像圧縮フィールドにおけるAIGC生成の可能性を示していることが示されています。

要約(オリジナル)

The rapid development of AIGC foundation models has revolutionized the paradigm of image compression, which paves the way for the abandonment of most pixel-level transform and coding, compelling us to ask: why compress what you can generate if the AIGC foundation model is powerful enough to faithfully generate intricate structure and fine-grained details from nothing more than some compact descriptors, i.e., texts, or cues. Fortunately, recent GPT-4o image generation of OpenAI has achieved impressive cross-modality generation, editing, and design capabilities, which motivates us to answer the above question by exploring its potential in image compression fields. In this work, we investigate two typical compression paradigms: textual coding and multimodal coding (i.e., text + extremely low-resolution image), where all/most pixel-level information is generated instead of compressing via the advanced GPT-4o image generation function. The essential challenge lies in how to maintain semantic and structure consistency during the decoding process. To overcome this, we propose a structure raster-scan prompt engineering mechanism to transform the image into textual space, which is compressed as the condition of GPT-4o image generation. Extensive experiments have shown that the combination of our designed structural raster-scan prompts and GPT-4o’s image generation function achieved the impressive performance compared with recent multimodal/generative image compression at ultra-low bitrate, further indicating the potential of AIGC generation in image compression fields.

arxiv情報

著者 Yixin Gao,Xiaohan Pan,Xin Li,Zhibo Chen
発行日 2025-04-30 17:20:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク