要約
超低ビットレートの画像圧縮は、挑戦的で要求の厳しいトピックです。
大規模マルチモーダル モデル (LMM) の開発に伴い、画像-テキスト-画像のクロスモダリティ圧縮 (CMC) パラダイムが出現しました。
従来のコーデックと比較して、このセマンティック レベルの圧縮により、画像データのサイズを 0.1\% 以下に削減できるため、強力な応用が期待できます。
ただし、CMC には、元の画像および知覚品質との一貫性において特定の欠陥があります。
この問題に対処するために、画像圧縮のための Image-to-Text (I2T) モデルと Text-to-Image (T2I) モデルの協調パフォーマンスのベンチマークである CMC-Bench を導入します。
このベンチマークは、人間の専門家によって注釈が付けられた 160,000 件の主観的選好スコアを含む、6 つの主流 I2T モデルと 12 の T2I モデルを検証するために、それぞれ 18,000 枚と 40,000 枚の画像を対象としています。
この論文は、超低ビットレートにおいて、一部の I2T モデルと T2I モデルの組み合わせが最先端の視覚信号コーデックを超えていることを証明しています。
一方、圧縮タスクに向けて LMM をさらに最適化できる箇所も強調しています。
視覚信号コーデック プロトコルの進化を促進するために、LMM 開発者がこのテストに参加することをお勧めします。
要約(オリジナル)
Ultra-low bitrate image compression is a challenging and demanding topic. With the development of Large Multimodal Models (LMMs), a Cross Modality Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with traditional codecs, this semantic-level compression can reduce image data size to 0.1\% or even lower, which has strong potential applications. However, CMC has certain defects in consistency with the original image and perceptual quality. To address this problem, we introduce CMC-Bench, a benchmark of the cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models for image compression. This benchmark covers 18,000 and 40,000 images respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000 subjective preference scores annotated by human experts. At ultra-low bitrates, this paper proves that the combination of some I2T and T2I models has surpassed the most advanced visual signal codecs; meanwhile, it highlights where LMMs can be further optimized toward the compression task. We encourage LMM developers to participate in this test to promote the evolution of visual signal codec protocols.
arxiv情報
著者 | Chunyi Li,Xiele Wu,Haoning Wu,Donghui Feng,Zicheng Zhang,Guo Lu,Xiongkuo Min,Xiaohong Liu,Guangtao Zhai,Weisi Lin |
発行日 | 2024-06-13 17:41:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google