Model-free Reinforcement Learning of Semantic Communication by Stochastic Policy Gradient

要約

タイトル:確率ポリシーグラディエントによるモデルフリー強化学習による意味通信

要約:

– 通信分野での機械学習技術の成功に刺激を受け、1949年にWeaverが提唱した意味通信のアイデアが注目されている。
– 意味通信では、情報の意味(セマンティック)を伝達することを目的とし、Shannonの古典的な設計パラダイムを破り、情報レートの節約が可能となる。
– 本研究では、既知のまたは微分可能なチャネルモデルを必要としない強化学習による意味通信システムを設計するために確率ポリシーグラディエント(SPG)を適用する。
– また、受信と目標変数間の相互情報量の最大化に基づいて、クラシックな通信と意味通信の両方にSPGを使用することを提唱する。
– 数値実験の結果、再パラメータ化トリックに基づくモデルアウェアな手法と比較可能な性能を実現することがわかったが、収束速度が低下している。

要約(オリジナル)

Motivated by the recent success of Machine Learning tools in wireless communications, the idea of semantic communication by Weaver from 1949 has gained attention. It breaks with Shannon’s classic design paradigm by aiming to transmit the meaning, i.e., semantics, of a message instead of its exact version, allowing for information rate savings. In this work, we apply the Stochastic Policy Gradient (SPG) to design a semantic communication system by reinforcement learning, not requiring a known or differentiable channel model – a crucial step towards deployment in practice. Further, we motivate the use of SPG for both classic and semantic communication from the maximization of the mutual information between received and target variables. Numerical results show that our approach achieves comparable performance to a model-aware approach based on the reparametrization trick, albeit with a decreased convergence rate.

arxiv情報

著者 Edgar Beck,Carsten Bockelmann,Armin Dekorsy
発行日 2023-05-05 14:27:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.IT, cs.LG, eess.SP, math.IT, stat.ML パーマリンク