Editable-DeepSC: Reliable Cross-Modal Semantic Communications for Facial Editing

要約

リアルタイムコンピュータービジョン(CV)は、さまざまな現実世界のアプリケーションで重要な役割を果たします。そのパフォーマンスは、通信ネットワークに大きく依存しています。
それにもかかわらず、従来の通信のデータ指向の特性は、多くの場合、リアルタイムCVタスクの特別なニーズと一致しません。
この問題を軽減するために、最近登場したセマンティックコミュニケーションズは、タスク関連のセマンティック情報のみを送信し、この問題に対処するために有望な風景を示します。
ただし、ソーシャルメディアで最も重要なリアルタイムCVアプリケーションの1つであるセマンティックフェイシャル編集に関連するコミュニケーションの課題は、依然としてほとんど未開拓のままです。
この論文では、フェイシャル編集のための新しいクロスモーダルセマンティックコミュニケーションアプローチであるEditable-DeepSCを提案することにより、このギャップを埋めます。
第一に、通信と編集を個別に処理するさまざまな伝送スキームを理論的に議論し、編集を通信チェーンに統合してよりセマンティックな相互情報を保存するために編集を統合する繰り返し属性を介して、共同編集チャネルコーディング(JECC)の必要性を強調します。
高次元データをコンパクトに表現するために、セマンティックコーディングのために事前に訓練されたスタイルガンプライアーを介して反転方法を活用します。
動的なチャネルノイズ条件に取り組むために、モデルの微調整を介してSNRが認識したチャネルコーディングを提案します。
広範な実験では、編集可能なDeepSCが優れた編集を実現しながら、高解像度および分散式(OOD)設定の下でも、トランスミッション帯域幅を大幅に保存できることが示されています。

要約(オリジナル)

Real-time computer vision (CV) plays a crucial role in various real-world applications, whose performance is highly dependent on communication networks. Nonetheless, the data-oriented characteristics of conventional communications often do not align with the special needs of real-time CV tasks. To alleviate this issue, the recently emerged semantic communications only transmit task-related semantic information and exhibit a promising landscape to address this problem. However, the communication challenges associated with Semantic Facial Editing, one of the most important real-time CV applications on social media, still remain largely unexplored. In this paper, we fill this gap by proposing Editable-DeepSC, a novel cross-modal semantic communication approach for facial editing. Firstly, we theoretically discuss different transmission schemes that separately handle communications and editings, and emphasize the necessity of Joint Editing-Channel Coding (JECC) via iterative attributes matching, which integrates editings into the communication chain to preserve more semantic mutual information. To compactly represent the high-dimensional data, we leverage inversion methods via pre-trained StyleGAN priors for semantic coding. To tackle the dynamic channel noise conditions, we propose SNR-aware channel coding via model fine-tuning. Extensive experiments indicate that Editable-DeepSC can achieve superior editings while significantly saving the transmission bandwidth, even under high-resolution and out-of-distribution (OOD) settings.

arxiv情報

著者 Bin Chen,Wenbo Yu,Qinshan Zhang,Tianqu Zhuang,Yong Jiang,Shu-Tao Xia
発行日 2025-05-06 16:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IT, cs.NI, math.IT パーマリンク