要約
この論文では、MMWAVE通信システムの高トレーニングオーバーヘッドとレイテンシの課題に対処するために、大きな言語モデル(LLMS)を活用する視力支援ミリ波(MMWAVE)ビーム予測フレームワークであるBeamllMを提案します。
コンピュータービジョン(CV)とLLMSのクロスモーダル推論機能を組み合わせることにより、フレームワークはRGB画像からユーザー機器(UE)の位置機能を抽出し、再プログラミング技術を通じてLLMSのセマンティックスペースを視覚的に対応する機能を整列させます。
現実的な車両からインフラストラクチャ(V2I)シナリオで評価された提案方法は、標準予測タスクで61.01%のTOP-1精度と97.39%のTOP-3精度を達成し、従来の深い学習モデルを大幅に上回っています。
少ないショット予測シナリオでは、パフォーマンスの劣化は、サンプル1から10から12.56%(TOP-1)と5.55%(TOP-3)に制限されており、優れた予測能力を示しています。
要約(オリジナル)
In this paper, we propose BeamLLM, a vision-aided millimeter-wave (mmWave) beam prediction framework leveraging large language models (LLMs) to address the challenges of high training overhead and latency in mmWave communication systems. By combining computer vision (CV) with LLMs’ cross-modal reasoning capabilities, the framework extracts user equipment (UE) positional features from RGB images and aligns visual-temporal features with LLMs’ semantic space through reprogramming techniques. Evaluated on a realistic vehicle-to-infrastructure (V2I) scenario, the proposed method achieves 61.01% top-1 accuracy and 97.39% top-3 accuracy in standard prediction tasks, significantly outperforming traditional deep learning models. In few-shot prediction scenarios, the performance degradation is limited to 12.56% (top-1) and 5.55% (top-3) from time sample 1 to 10, demonstrating superior prediction capability.
arxiv情報
著者 | Can Zheng,Jiguang He,Guofa Cai,Zitong Yu,Chung G. Kang |
発行日 | 2025-03-13 14:55:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google