要約
サイバー物理的車両システムのマルチエージェント補強学習(MARL)には、通常、それらの固有の複雑さのためにかなり長いトレーニング時間が必要です。
さらに、現実世界に訓練されたポリシーを展開するには、複数の物理的具体化されたエージェントとともに機能が豊富な環境が必要です。
この作業は、次のことができる混合現実性デジタルツインフレームワークを提示することにより、これらの問題点に対処しようとしています。
提案されたフレームワークの実行可能性とパフォーマンスは、2つの代表的なユースケースを通じて強調されています。これは、MARLの問題の競争力のあるクラスをカバーしています。
(i)トレーニング時間に対するエージェントと環境の並列化の影響、および(ii)両方のケーススタディにおけるゼロショットSIM2real転送に対する系統的ドメインランダム化の影響を研究します。
結果は、提案された並列化スキームとSIM2REALギャップが提案された展開方法を使用して2.9%という低いトレーニング時間の最大76.3%の短縮を示しています。
要約(オリジナル)
Multi-agent reinforcement learning (MARL) for cyber-physical vehicle systems usually requires a significantly long training time due to their inherent complexity. Furthermore, deploying the trained policies in the real world demands a feature-rich environment along with multiple physical embodied agents, which may not be feasible due to monetary, physical, energy, or safety constraints. This work seeks to address these pain points by presenting a mixed-reality digital twin framework capable of: (i) selectively scaling parallelized workloads on-demand, and (ii) evaluating the trained policies across simulation-to-reality (sim2real) experiments. The viability and performance of the proposed framework are highlighted through two representative use cases, which cover cooperative as well as competitive classes of MARL problems. We study the effect of: (i) agent and environment parallelization on training time, and (ii) systematic domain randomization on zero-shot sim2real transfer across both case studies. Results indicate up to 76.3% reduction in training time with the proposed parallelization scheme and sim2real gap as low as 2.9% using the proposed deployment method.
arxiv情報
著者 | Chinmay Vilas Samak,Tanmay Vilas Samak,Venkat Narayan Krovi |
発行日 | 2025-03-20 01:11:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google