SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins

要約

ワイヤレスパフォーマンス制約の下でのパス計画は、ロボットナビゲーションの複雑な課題です。
ただし、このような制約を古典的な計画アルゴリズムに素朴に組み込むことは、しばしば法外な検索コストが発生します。
このホワイトペーパーでは、視覚言語モデル(VLM)を活用して、ワイヤレスヒートマップ画像とデジタルツイン(DT)からのレイトレースデータを使用して平均パスのゲインと軌道長を共同最適化するワイヤレス対応のパス計画フレームワークであるスコットを提案します。
私たちのフレームワークの中心にあるのは、戦略的なチェーンのタスク(Scott)です。これは、徹底的な検索問題を構造化されたサブタスクに分解する小説の促しパラダイムであり、それぞれが考えられたチェーンプロンプトを介して解決されました。
強力なベースラインを確立するために、それの古典的なA*とワイヤレス対応の拡張機能を比較し、DTからのすべてのパスのゲインと距離メトリックを組み込んだ最適な反復動的プログラミングアルゴリズムであるDP-WA*を導き出します。
広範な実験では、ScottがDP-WA*の2%以内のパスゲインを達成しながら、より短い軌道を一貫して生成することを示しています。
さらに、スコットの中間出力を使用して、検索スペースを削減してDP-WA*を加速し、実行時間を62%節約できます。
4つのVLMSを使用してフレームワークを検証し、大小のモデルの両方で有効性を実証するため、推論コストが低い場合に幅広いコンパクトモデルに適用できます。
また、ScottをGazeboシミュレーション内にROSノードとして展開することにより、アプローチの実用的な実行可能性を示しています。
最後に、6G対応DTSのVLMのデータ収集パイプライン、計算要件、および展開に関する考慮事項について説明し、実際のアプリケーションでのワイヤレス対応ナビゲーションの自然言語インターフェイスの可能性を強調します。

要約(オリジナル)

Path planning under wireless performance constraints is a complex challenge in robot navigation. However, naively incorporating such constraints into classical planning algorithms often incurs prohibitive search costs. In this paper, we propose SCoTT, a wireless-aware path planning framework that leverages vision-language models (VLMs) to co-optimize average path gains and trajectory length using wireless heatmap images and ray-tracing data from a digital twin (DT). At the core of our framework is Strategic Chain-of-Thought Tasking (SCoTT), a novel prompting paradigm that decomposes the exhaustive search problem into structured subtasks, each solved via chain-of-thought prompting. To establish strong baselines, we compare classical A* and wireless-aware extensions of it, and derive DP-WA*, an optimal, iterative dynamic programming algorithm that incorporates all path gains and distance metrics from the DT, but at significant computational cost. In extensive experiments, we show that SCoTT achieves path gains within 2% of DP-WA* while consistently generating shorter trajectories. Moreover, SCoTT’s intermediate outputs can be used to accelerate DP-WA* by reducing its search space, saving up to 62% in execution time. We validate our framework using four VLMs, demonstrating effectiveness across both large and small models, thus making it applicable to a wide range of compact models at low inference cost. We also show the practical viability of our approach by deploying SCoTT as a ROS node within Gazebo simulations. Finally, we discuss data acquisition pipelines, compute requirements, and deployment considerations for VLMs in 6G-enabled DTs, underscoring the potential of natural language interfaces for wireless-aware navigation in real-world applications.

arxiv情報

著者 Aladin Djuhera,Amin Seffo,Vlad C. Andrei,Holger Boche,Walid Saad
発行日 2025-05-29 13:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク