Visual Fidelity Index for Generative Semantic Communications with Critical Information Embedding

要約

大規模な人工知能(AI)モデルを使用した生成セマンティックコミュニケーション(GEN-SEMCOM)は、6Gネットワ​​ークの変換パラダイムを約束します。これにより、生データではなく低次元プロンプトを送信することで通信コストが削減されます。
しかし、純粋に迅速な駆動型の世代は、きめ細かい視覚的な詳細を失います。
さらに、Gen-Semcomシステムのパフォーマンスを評価するための体系的なメトリックが不足しています。
これらの問題に対処するために、重要な情報埋め込み(CIE)フレームワークを備えたハイブリッドGen-Semcomシステムを開発します。ここでは、テキストプロンプトと意味的に重要な機能の両方が送信用に抽出されます。
まず、セマンティックラベルに関連する画像の意味的に重要な機能を選択および送信するために、セマンティックフィルタリングの新しいアプローチが提案されています。
テキストプロンプトと重要な機能を統合することにより、受信機は拡散ベースの生成モデルを使用して高忠実度画像を再構築します。
次に、生成された画像の視覚品質を評価するために、生成視覚情報の忠実度(GVIF)メトリックを提案します。
画像機能の統計モデルを特徴付けることにより、GVIFメトリックは、歪んだ特徴と元のカウンターパートの間の相互情報を定量化します。
GVIFメトリックを最大化することにより、チャネル状態に応じて機能の量と圧縮率を適応的に制御するチャネル適応Gen-Semcomシステムを設計します。
実験結果は、視覚的忠実度に対するGVIFメトリックの感度を検証し、PSNRと重要な情報量の両方と相関しています。
さらに、最適化されたシステムは、より高いPSNRおよびより低いFIDスコアに関して、ベンチマークスキームよりも優れたパフォーマンスを実現します。

要約(オリジナル)

Generative semantic communication (Gen-SemCom) with large artificial intelligence (AI) model promises a transformative paradigm for 6G networks, which reduces communication costs by transmitting low-dimensional prompts rather than raw data. However, purely prompt-driven generation loses fine-grained visual details. Additionally, there is a lack of systematic metrics to evaluate the performance of Gen-SemCom systems. To address these issues, we develop a hybrid Gen-SemCom system with a critical information embedding (CIE) framework, where both text prompts and semantically critical features are extracted for transmissions. First, a novel approach of semantic filtering is proposed to select and transmit the semantically critical features of images relevant to semantic label. By integrating the text prompt and critical features, the receiver reconstructs high-fidelity images using a diffusion-based generative model. Next, we propose the generative visual information fidelity (GVIF) metric to evaluate the visual quality of the generated image. By characterizing the statistical models of image features, the GVIF metric quantifies the mutual information between the distorted features and their original counterparts. By maximizing the GVIF metric, we design a channel-adaptive Gen-SemCom system that adaptively control the volume of features and compression rate according to the channel state. Experimental results validate the GVIF metric’s sensitivity to visual fidelity, correlating with both the PSNR and critical information volume. In addition, the optimized system achieves superior performance over benchmarking schemes in terms of higher PSNR and lower FID scores.

arxiv情報

著者 Jianhao Huang,Qunsong Zeng,Kaibin Huang
発行日 2025-05-15 15:28:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク