Reinforcement Learning for AMR Charging Decisions: The Impact of Reward and Action Space Design

要約

大規模なブロックスタッキングウェアハウスの自律モバイルロボットの充電戦略を最適化するために、新しい強化学習(RL)設計を提案します。
RL設計には、主に長い実験によってのみ評価できる幅広い選択肢が含まれます。
私たちの研究は、柔軟なセットアップからよりガイド付きドメインに基づいた設計構成まで、エージェントのパフォーマンスに影響を与える範囲で、さまざまな報酬とアクションスペースの構成に焦点を当てています。
ヒューリスティック充電戦略をベースラインとして使用して、サービス時間の観点から柔軟なRLベースのアプローチの優位性を実証します。
さらに、我々の調査結果はトレードオフを強調しています。よりオープンエンドの設計では、よりパフォーマンスの高い戦略を独自に発見することができますが、誘導構成はより安定した学習プロセスにつながりますが、より限られた一般化の可能性を示します。
私たちの貢献は3つあります。
まず、充電戦略に対応するために、オープンソースのRL互換シミュレーションフレームワークであるSlapstackを拡張します。
第二に、充電戦略の問題に取り組むための新しいRLデザインを紹介します。
最後に、いくつかの新しい適応ベースラインヒューリスティックを導入し、近位ポリシー最適化エージェントを使用して設計を再現でき、さまざまな設計構成を使用して、報酬に焦点を当てています。

要約(オリジナル)

We propose a novel reinforcement learning (RL) design to optimize the charging strategy for autonomous mobile robots in large-scale block stacking warehouses. RL design involves a wide array of choices that can mostly only be evaluated through lengthy experimentation. Our study focuses on how different reward and action space configurations, ranging from flexible setups to more guided, domain-informed design configurations, affect the agent performance. Using heuristic charging strategies as a baseline, we demonstrate the superiority of flexible, RL-based approaches in terms of service times. Furthermore, our findings highlight a trade-off: While more open-ended designs are able to discover well-performing strategies on their own, they may require longer convergence times and are less stable, whereas guided configurations lead to a more stable learning process but display a more limited generalization potential. Our contributions are threefold. First, we extend SLAPStack, an open-source, RL-compatible simulation-framework to accommodate charging strategies. Second, we introduce a novel RL design for tackling the charging strategy problem. Finally, we introduce several novel adaptive baseline heuristics and reproducibly evaluate the design using a Proximal Policy Optimization agent and varying different design configurations, with a focus on reward.

arxiv情報

著者 Janik Bischoff,Alexandru Rinciog,Anne Meyer
発行日 2025-05-16 11:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク