Generative Video Semantic Communication via Multimodal Semantic Fusion with Large Model

要約

シャノンの理論に基づいた伝統的な構文通信の大幅な進歩にもかかわらず、これらの方法は、特に困難な伝送条件下で、6G没入型通信の要件を満たすのに苦労しています。
生成人工知能(GENAI)の開発により、高レベルのセマンティック情報を使用して動画を再構築することにおいて進展がありました。
この論文では、高品質のビデオ再建を実現するために意味情報を抽出および送信するスケーラブルな生成ビデオセマンティックコミュニケーションフレームワークを提案します。
具体的には、送信機では、説明およびその他の条件信号(例:最初のフレーム、スケッチなど)がソースビデオから抽出され、それぞれテキストと構造セマンティクスとして機能します。
受信機では、拡散ベースのGenai大規模モデルを利用して、ビデオを再構築するための複数のモダリティのセマンティクスを融合します。
シミュレーション結果は、超低チャネル帯域幅比(CBR)で、私たちのスキームがセマンティック情報を効果的にキャプチャして、異なる信号対雑音比の下で人間の知覚に合ったビデオを再構築することを効果的にキャプチャします。
特に、提案された「最初のフレーム+DESC」。
スキームは、SNR> 0 dBでCBR = 0.0057で0.92を超えるクリップスコアを一貫して達成します。
これは、低SNR条件下でも堅牢なパフォーマンスを示しています。

要約(オリジナル)

Despite significant advancements in traditional syntactic communications based on Shannon’s theory, these methods struggle to meet the requirements of 6G immersive communications, especially under challenging transmission conditions. With the development of generative artificial intelligence (GenAI), progress has been made in reconstructing videos using high-level semantic information. In this paper, we propose a scalable generative video semantic communication framework that extracts and transmits semantic information to achieve high-quality video reconstruction. Specifically, at the transmitter, description and other condition signals (e.g., first frame, sketches, etc.) are extracted from the source video, functioning as text and structural semantics, respectively. At the receiver, the diffusion-based GenAI large models are utilized to fuse the semantics of the multiple modalities for reconstructing the video. Simulation results demonstrate that, at an ultra-low channel bandwidth ratio (CBR), our scheme effectively captures semantic information to reconstruct videos aligned with human perception under different signal-to-noise ratios. Notably, the proposed “First Frame+Desc.’ scheme consistently achieves CLIP score exceeding 0.92 at CBR = 0.0057 for SNR > 0 dB. This demonstrates its robust performance even under low SNR conditions.

arxiv情報

著者 Hang Yin,Li Qiao,Yu Ma,Shuo Sun,Kan Li,Zhen Gao,Dusit Niyato
発行日 2025-02-19 15:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IT, eess.IV, eess.SP, math.IT パーマリンク