ComTraQ-MPC: Meta-Trained DQN-MPC Integration for Trajectory Tracking with Limited Active Localization Updates

要約

部分的に観測可能な確率論的な環境での軌道追跡の最適な意思決定は、アクティブな位置特定更新 (エージェントがセンサーから真の状態情報を取得するプロセス) の数が制限されているため、重大な課題となります。
従来の方法では、リソースの節約、正確な状態推定、正確な追跡のバランスを取るのに苦労することが多く、その結果、最適なパフォーマンスが得られません。
この問題は、大規模なアクション スペースを持つ環境で特に顕著です。この環境では、頻繁で正確な状態データの必要性が最も重要ですが、アクティブなローカリゼーション更新の容量は外部制限によって制限されます。
この論文では、Deep Q-Networks (DQN) と Model Predictive Control (MPC) を組み合わせて、制約付きのアクティブな位置特定更新による軌道追跡を最適化する新しいフレームワークである ComTraQ-MPC を紹介します。
メタトレーニングされた DQN は適応的なアクティブな位置特定スケジューリングを保証し、MPC は利用可能な状態情報を活用して追跡を改善します。
この研究の中心的な貢献は、DQN の相互作用です。DQN の更新決定は MPC の制御戦略に情報を与え、MPC の結果は DQN の学習を洗練させ、一貫性のある適応システムを作成します。
シミュレーション設定および現実世界の設定での経験的評価は、ComTraQ-MPC が運用効率と精度を大幅に向上させ、複雑な部分的に観測可能な環境での軌道追跡に一般化可能でほぼ最適なソリューションを提供することを示しています。

要約(オリジナル)

Optimal decision-making for trajectory tracking in partially observable, stochastic environments where the number of active localization updates — the process by which the agent obtains its true state information from the sensors — are limited, presents a significant challenge. Traditional methods often struggle to balance resource conservation, accurate state estimation and precise tracking, resulting in suboptimal performance. This problem is particularly pronounced in environments with large action spaces, where the need for frequent, accurate state data is paramount, yet the capacity for active localization updates is restricted by external limitations. This paper introduces ComTraQ-MPC, a novel framework that combines Deep Q-Networks (DQN) and Model Predictive Control (MPC) to optimize trajectory tracking with constrained active localization updates. The meta-trained DQN ensures adaptive active localization scheduling, while the MPC leverages available state information to improve tracking. The central contribution of this work is their reciprocal interaction: DQN’s update decisions inform MPC’s control strategy, and MPC’s outcomes refine DQN’s learning, creating a cohesive, adaptive system. Empirical evaluations in simulated and real-world settings demonstrate that ComTraQ-MPC significantly enhances operational efficiency and accuracy, providing a generalizable and approximately optimal solution for trajectory tracking in complex partially observable environments.

arxiv情報

著者 Gokul Puthumanaillam,Manav Vora,Melkior Ornik
発行日 2024-08-20 21:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY パーマリンク