Towards Semantic Communications: Deep Learning-Based Image Semantic Coding

要約

セマンティック通信は、重要な情報を見逃すことなく、伝送するデータ量を著しく削減することができるため、ますます関心を集めている。従来は、テキストを意味的に符号化して送信し、その意味を解釈するために自然言語処理(NLP)の技術を適用するのが主流であった。本論文では、より豊富な意味を持ち、帯域幅に敏感な画像データのためのセマンティック通信を構想している。我々は、画素レベルを超えて画像を符号化する強化学習ベースの適応的意味符号化(RL-ASC)アプローチを提案する。まず、カテゴリ、空間配置、視覚的特徴を表現単位とする画像データの意味概念を定義し、意味概念を抽出するための畳み込み意味エンコーダを提案する。第二に、従来の画素類似度から意味的類似度、知覚性能へと発展させた画像再構成基準を提案する。第三に、我々は新しいRLベースの意味的ビット割り当てモデルを設計する。その報酬は、適応的量子化レベルを用いて特定の意味的概念を符号化した後のレート・意味・知覚性能の増加である。これにより、タスクに関連する情報は保存され、適切に再構成される一方で、重要度の低いデータは破棄される。最後に、Generative Adversarial Nets (GANs)に基づく意味デコーダを提案し、注意モジュールを介して局所的および全体的な特徴を融合させる。実験結果は、提案するRL-ASCがノイズに強く、視覚的に快適で意味的に一貫した画像を再構成でき、標準コーデックや他の深層学習ベースの画像コーデックと比較して、ビットコストを何倍も節約できることを実証している。

要約(オリジナル)

Semantic communications has received growing interest since it can remarkably reduce the amount of data to be transmitted without missing critical information. Most existing works explore the semantic encoding and transmission for text and apply techniques in Natural Language Processing (NLP) to interpret the meaning of the text. In this paper, we conceive the semantic communications for image data that is much more richer in semantics and bandwidth sensitive. We propose an reinforcement learning based adaptive semantic coding (RL-ASC) approach that encodes images beyond pixel level. Firstly, we define the semantic concept of image data that includes the category, spatial arrangement, and visual feature as the representation unit, and propose a convolutional semantic encoder to extract semantic concepts. Secondly, we propose the image reconstruction criterion that evolves from the traditional pixel similarity to semantic similarity and perceptual performance. Thirdly, we design a novel RL-based semantic bit allocation model, whose reward is the increase in rate-semantic-perceptual performance after encoding a certain semantic concept with adaptive quantization level. Thus, the task-related information is preserved and reconstructed properly while less important data is discarded. Finally, we propose the Generative Adversarial Nets (GANs) based semantic decoder that fuses both locally and globally features via an attention module. Experimental results demonstrate that the proposed RL-ASC is noise robust and could reconstruct visually pleasant and semantic consistent image, and saves times of bit cost compared to standard codecs and other deep learning-based image codecs.

arxiv情報

著者 Danlan Huang,Feifei Gao,Xiaoming Tao,Qiyuan Du,Jianhua Lu
発行日 2022-08-08 12:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク