要約
スペクトル アクセスは、デバイス間 (D2D) 通信における重要な問題です。
しかし、最近のモバイルデバイスの数の増加に伴い、無線スペクトルが不足しており、その結果、D2D 通信のスペクトル効率が低くなります。
この問題に対処するために、この文書は周囲後方散乱通信技術を D2D デバイスに統合し、共有スペクトルがモバイル ユーザーによって占有されている場合に周囲 RF 信号を後方散乱させてデータを送信できるようにすることを目的としています。
最適なスペクトル アクセス ポリシーを取得するには、つまり、アイドル状態を維持するか、共有スペクトルにアクセスしてアクティブな送信を実行するか、送信のために周囲 RF 信号を後方散乱させて、D2D ユーザーの平均スループットを最大化するために、深層強化学習 (DRL) を採用できます。
ただし、DRL ベースのソリューションでは、次元の問題や複雑なディープ ニューラル ネットワーク アーキテクチャの呪いにより、長いトレーニング時間が必要になる場合があります。
そのために、量子重ね合わせと量子もつれの原理により、DRL と比較して少ないトレーニング パラメーターでより速い収束率を達成できる新しい量子強化学習 (RL) アルゴリズムを開発します。
具体的には、提案された量子 RL アルゴリズムでは、従来のディープ ニューラル ネットワークを使用する代わりに、パラメータ化された量子回路を使用して最適なポリシーを近似します。
その後、広範なシミュレーションにより、提案されたソリューションは、共有スペクトルがビジーな場合に D2D デバイスの平均スループットを大幅に向上させるだけでなく、既存の DRL ベースの方法と比較して、収束率と学習の複雑さの点ではるかに優れたパフォーマンスを達成できることを実証しました。
要約(オリジナル)
Spectrum access is an essential problem in device-to-device (D2D) communications. However, with the recent growth in the number of mobile devices, the wireless spectrum is becoming scarce, resulting in low spectral efficiency for D2D communications. To address this problem, this paper aims to integrate the ambient backscatter communication technology into D2D devices to allow them to backscatter ambient RF signals to transmit their data when the shared spectrum is occupied by mobile users. To obtain the optimal spectrum access policy, i.e., stay idle or access the shared spectrum and perform active transmissions or backscattering ambient RF signals for transmissions, to maximize the average throughput for D2D users, deep reinforcement learning (DRL) can be adopted. However, DRL-based solutions may require long training time due to the curse of dimensionality issue as well as complex deep neural network architectures. For that, we develop a novel quantum reinforcement learning (RL) algorithm that can achieve a faster convergence rate with fewer training parameters compared to DRL thanks to the quantum superposition and quantum entanglement principles. Specifically, instead of using conventional deep neural networks, the proposed quantum RL algorithm uses a parametrized quantum circuit to approximate an optimal policy. Extensive simulations then demonstrate that the proposed solution not only can significantly improve the average throughput of D2D devices when the shared spectrum is busy but also can achieve much better performance in terms of convergence rate and learning complexity compared to existing DRL-based methods.
arxiv情報
著者 | Nguyen Van Huynh,Bolun Zhang,Dinh-Hieu Tran,Dinh Thai Hoang,Diep N. Nguyen,Gan Zheng,Dusit Niyato,Quoc-Viet Pham |
発行日 | 2024-10-23 15:36:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google