Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity

要約

テキストガイドによる画像圧縮の最近の進歩により、再構成された画像の知覚品質が向上する大きな可能性が示されています。
ただし、これらの方法はピクセル単位の忠実度が大幅に低下する傾向があり、実用性が制限されます。
このギャップを埋めるために、私たちは、高い知覚的忠実度とピクセル単位の忠実度の両方を達成する、新しいテキストガイド付き画像圧縮アルゴリズムを開発しました。
特に、主にテキスト適応エンコーディングと画像とテキストの結合損失を伴うトレーニングによってテキスト情報を活用する圧縮フレームワークを提案します。
そうすることで、高い生成多様性で知られるテキスト誘導生成モデルに基づくデコードを回避し、テキストの意味情報をグローバル レベルで効果的に利用します。
さまざまなデータセットに関する実験結果は、私たちの方法が人間または機械が生成したキャプションのいずれかを使用して、高いピクセルレベルと知覚品質を達成できることを示しています。
特に、私たちの方法は LPIPS の点ですべてのベースラインを上回っており、より慎重に生成されたキャプションを使用する場合にはさらに改善の余地があります。

要約(オリジナル)

Recent advances in text-guided image compression have shown great potential to enhance the perceptual quality of reconstructed images. These methods, however, tend to have significantly degraded pixel-wise fidelity, limiting their practicality. To fill this gap, we develop a new text-guided image compression algorithm that achieves both high perceptual and pixel-wise fidelity. In particular, we propose a compression framework that leverages text information mainly by text-adaptive encoding and training with joint image-text loss. By doing so, we avoid decoding based on text-guided generative models — known for high generative diversity — and effectively utilize the semantic information of text at a global level. Experimental results on various datasets show that our method can achieve high pixel-level and perceptual quality, with either human- or machine-generated captions. In particular, our method outperforms all baselines in terms of LPIPS, with some room for even more improvements when we use more carefully generated captions.

arxiv情報

著者 Hagyeong Lee,Minkyu Kim,Jun-Hyuk Kim,Seungeon Kim,Dokwan Oh,Jaeho Lee
発行日 2024-03-05 13:15:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク