MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model

要約

ストレージと通信プロトコルの進化に伴い、超低ビットレートの画像圧縮は非常に要求の高いテーマになっています。
ただし、既存の圧縮アルゴリズムでは、グラウンド トゥルースとの一貫性、または超低ビットレートでの知覚品質のいずれかを犠牲にする必要があります。
近年、大規模マルチモーダル モデル (LMM) の急速な発展により、これら 2 つの目標のバランスをとることが可能になりました。
この問題を解決するために、本論文は、マルチモーダル画像セマンティック圧縮(MISC)と呼ばれる方法を提案する。この方法は、画像の意味情報を抽出するLMMエンコーダ、セマンティックに対応する領域を特定するマップエンコーダ、画像エンコーダが生成する画像エンコーダで構成される。
極度に圧縮されたビットストリームと、デコーダが上記の情報に基づいて画像を再構成します。
実験結果は、私たちが提案した MISC が、従来の Natural Sense Images (NSI) と新興の AI-Generated Images (AIGI) コンテンツの両方の圧縮に適していることを示しています。
ビットレートを 50% 節約しながら、最適な一貫性と認識結果を実現できるため、次世代のストレージと通信に強力な応用が期待できます。
コードは https://github.com/lcysyzxdxc/MISC で公開されます。

要約(オリジナル)

With the evolution of storage and communication protocols, ultra-low bitrate image compression has become a highly demanding topic. However, existing compression algorithms must sacrifice either consistency with the ground truth or perceptual quality at ultra-low bitrate. In recent years, the rapid development of the Large Multimodal Model (LMM) has made it possible to balance these two goals. To solve this problem, this paper proposes a method called Multimodal Image Semantic Compression (MISC), which consists of an LMM encoder for extracting the semantic information of the image, a map encoder to locate the region corresponding to the semantic, an image encoder generates an extremely compressed bitstream, and a decoder reconstructs the image based on the above information. Experimental results show that our proposed MISC is suitable for compressing both traditional Natural Sense Images (NSIs) and emerging AI-Generated Images (AIGIs) content. It can achieve optimal consistency and perception results while saving 50% bitrate, which has strong potential applications in the next generation of storage and communication. The code will be released on https://github.com/lcysyzxdxc/MISC.

arxiv情報

著者 Chunyi Li,Guo Lu,Donghui Feng,Haoning Wu,Zicheng Zhang,Xiaohong Liu,Guangtao Zhai,Weisi Lin,Wenjun Zhang
発行日 2024-04-17 14:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク