Synchronous Multi-modal Semantic CommunicationSystem with Packet-level Coding

要約

統合セマンティック チャネル コーディング設計によるセマンティック通信は、物理層チャネルを介してさまざまなモダリティのデータを送信する際に有望なパフォーマンスを示していますが、マルチモーダル セマンティクスの同期とパケット レベルの前方誤り訂正については十分に研究されていません。
セマンティック エンコーダは独立した設計であるため、セマンティック ドメインと時間ドメインの両方でマルチモーダル機能を同期することは困難な問題です。
この論文では、顔のビデオと音声の送信を例として、パケットレベルのコーディングを備えた同期マルチモーダルセマンティック通信システム (SyncSC) を提案します。
セマンティック同期と時間同期を実現するために、3D モーファブル モード (3DMM) 係数とテキストがセマンティクスとして送信され、従来の方法と比較してより低い帯域幅で同等の品質の再構成と同期を達成するセマンティック コーデックを提案します。
消去チャネルの下でセマンティックパケットを保護するために、高いパケット損失率でも一定の視覚品質パフォーマンスを維持する、PacSCと呼ばれるパケットレベルの前方誤り訂正(FEC)方法を提案します。
特に、テキスト パケットについては、トランスフォーマーからの双方向エンコーダ表現 (BERT) に基づく TextPC と呼ばれるテキスト パケット損失隠蔽モジュールが提案されており、これにより従来の FEC 方法のパフォーマンスが大幅に向上します。
シミュレーション結果は、私たちが提案した SyncSC が伝送オーバーヘッドを削減し、パケット損失ネットワーク上でビデオと音声の高品質な同期伝送を実現することを示しています。

要約(オリジナル)

Although the semantic communication with joint semantic-channel coding design has shown promising performance in transmitting data of different modalities over physical layer channels, the synchronization and packet-level forward error correction of multimodal semantics have not been well studied. Due to the independent design of semantic encoders, synchronizing multimodal features in both the semantic and time domains is a challenging problem. In this paper, we take the facial video and speech transmission as an example and propose a Synchronous Multimodal Semantic Communication System (SyncSC) with Packet-Level Coding. To achieve semantic and time synchronization, 3D Morphable Mode (3DMM) coefficients and text are transmitted as semantics, and we propose a semantic codec that achieves similar quality of reconstruction and synchronization with lower bandwidth, compared to traditional methods. To protect semantic packets under the erasure channel, we propose a packet-Level Forward Error Correction (FEC) method, called PacSC, that maintains a certain visual quality performance even at high packet loss rates. Particularly, for text packets, a text packet loss concealment module, called TextPC, based on Bidirectional Encoder Representations from Transformers (BERT) is proposed, which significantly improves the performance of traditional FEC methods. The simulation results show that our proposed SyncSC reduce transmission overhead and achieve high-quality synchronous transmission of video and speech over the packet loss network.

arxiv情報

著者 Yun Tian,Jingkai Ying,Zhijin Qin,Ye Jin,Xiaoming Tao
発行日 2024-08-08 15:42:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.IV パーマリンク