When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding

要約

既存のコーデックは、固有の冗長性を排除して、圧縮のためのコンパクトな表現を作成するように設計されています。
ただし、マルチモーダル大手言語モデル(MLLM)からの強力な外部プライアーは、ビデオ圧縮で明示的に調査されていません。
ここでは、ビデオコーディングでマルチモダリティ表現とビデオ生成モデルを探索するための先駆的なアプローチであるクロスモダリティビデオコーディング(CMVC)の統一パラダイムを紹介します。
具体的には、エンコーダ側では、ビデオを空間コンテンツとモーションコンポーネントに解き放ちます。このコンポーネントは、MLLMを活用することにより非常にコンパクトな表現を実現するために、明確なモダリティに変換されます。
デコード中、以前にエンコードされたコンポーネントとビデオ生成モデルが活用されて、テキストテキストからビデオへの要件(TT2V)モードを含む特定のデコード要件のビデオ再構成品質を最適化する複数のエンコードデコードモードを作成して、高品質のセマンティック情報と画像を確保する
-text-to-video(IT2V)モードで、優れた知覚的な一貫性を実現します。
さらに、低ランク適応(LORA)チューニングを介してIT2Vモードの効率的なフレーム補間モデルを提案して、知覚品質を保証します。これにより、生成されたモーションキューがスムーズに動作することができます。
ベンチマークでの実験は、TT2Vが効果的なセマンティック再構成を達成し、IT2Vが競争的な知覚的一貫性を示していることを示しています。
これらの結果は、ビデオコーディングにおける将来の研究の潜在的な方向を強調しています。

要約(オリジナル)

Existing codecs are designed to eliminate intrinsic redundancies to create a compact representation for compression. However, strong external priors from Multimodal Large Language Models (MLLMs) have not been explicitly explored in video compression. Herein, we introduce a unified paradigm for Cross-Modality Video Coding (CMVC), which is a pioneering approach to explore multimodality representation and video generative models in video coding. Specifically, on the encoder side, we disentangle a video into spatial content and motion components, which are subsequently transformed into distinct modalities to achieve very compact representation by leveraging MLLMs. During decoding, previously encoded components and video generation models are leveraged to create multiple encoding-decoding modes that optimize video reconstruction quality for specific decoding requirements, including Text-Text-to-Video (TT2V) mode to ensure high-quality semantic information and Image-Text-to-Video (IT2V) mode to achieve superb perceptual consistency. In addition, we propose an efficient frame interpolation model for IT2V mode via Low-Rank Adaption (LoRA) tuning to guarantee perceptual quality, which allows the generated motion cues to behave smoothly. Experiments on benchmarks indicate that TT2V achieves effective semantic reconstruction, while IT2V exhibits competitive perceptual consistency. These results highlight potential directions for future research in video coding.

arxiv情報

著者 Pingping Zhang,Jinlong Li,Kecheng Chen,Meng Wang,Long Xu,Haoliang Li,Nicu Sebe,Sam Kwong,Shiqi Wang
発行日 2025-01-29 05:19:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク