Model-free Reinforcement Learning of Semantic Communication by Stochastic Policy Gradient

要約

無線通信における機械学習ツールの最近の成功を受けて、1949 年のウィーバーによるセマンティック通信のアイデアが注目を集めています。
これは、メッセージの正確なバージョンではなく、メッセージの意味、つまりセマンティクスを送信することを目的とすることで、シャノンの古典的な設計パラダイムを打ち破り、情報速度の節約を可能にします。
この研究では、確率的ポリシー勾配 (SPG) を適用して、強化学習によってセマンティック通信システムを設計し、送信機と受信機を分離し、既知または微分可能なチャネル モデルを必要としません。これは実際の展開に向けた重要なステップです。
さらに、受信変数とターゲット変数の間の相互情報の最大化から、古典的通信とセマンティック通信の両方に対する SPG の使用を導き出します。
数値結果は、収束率は低下しますが、私たちのアプローチが再パラメータ化トリックに基づくモデル認識アプローチと同等のパフォーマンスを達成することを示しています。

要約(オリジナル)

Following the recent success of Machine Learning tools in wireless communications, the idea of semantic communication by Weaver from 1949 has gained attention. It breaks with Shannon’s classic design paradigm by aiming to transmit the meaning, i.e., semantics, of a message instead of its exact version, allowing for information rate savings. In this work, we apply the Stochastic Policy Gradient (SPG) to design a semantic communication system by reinforcement learning, separating transmitter and receiver, and not requiring a known or differentiable channel model — a crucial step towards deployment in practice. Further, we derive the use of SPG for both classic and semantic communication from the maximization of the mutual information between received and target variables. Numerical results show that our approach achieves comparable performance to a model-aware approach based on the reparametrization trick, albeit with a decreased convergence rate.

arxiv情報

著者 Edgar Beck,Carsten Bockelmann,Armin Dekorsy
発行日 2024-03-14 15:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, eess.SP, math.IT, stat.ML パーマリンク