要約
部分的に観察可能な、リアルタイムで動的なマルチエージェント環境におけるロボットの意思決定は、依然として困難かつ未解決の課題です。
モデルフリーの強化学習 (RL) は、このような領域で意思決定を学習するための有望なアプローチですが、複雑な環境におけるエンドツーエンドの RL は扱いにくいことがよくあります。
ロボカップ スタンダード プラットフォーム リーグ (SPL) ドメインにおけるこの課題に対処するために、私たちは、マルチ忠実度の sim2real アプローチを採用し、ヒューリスティック選択により動作を学習されたサブ動作に分解しながら、古典的なロボット工学スタック内に RL を統合する新しいアーキテクチャを開発しました。
私たちのアーキテクチャは、2024 年のロボカップ SPL チャレンジ シールド部門での勝利につながりました。
この研究では、システムのアーキテクチャを完全に説明し、その成功に貢献した主要な設計上の決定を実証的に分析します。
私たちのアプローチは、RL ベースの動作を完全なロボット動作アーキテクチャにどのように統合できるかを示しています。
要約(オリジナル)
Robot decision-making in partially observable, real-time, dynamic, and multi-agent environments remains a difficult and unsolved challenge. Model-free reinforcement learning (RL) is a promising approach to learning decision-making in such domains, however, end-to-end RL in complex environments is often intractable. To address this challenge in the RoboCup Standard Platform League (SPL) domain, we developed a novel architecture integrating RL within a classical robotics stack, while employing a multi-fidelity sim2real approach and decomposing behavior into learned sub-behaviors with heuristic selection. Our architecture led to victory in the 2024 RoboCup SPL Challenge Shield Division. In this work, we fully describe our system’s architecture and empirically analyze key design decisions that contributed to its success. Our approach demonstrates how RL-based behaviors can be integrated into complete robot behavior architectures.
arxiv情報
著者 | Adam Labiosa,Zhihan Wang,Siddhant Agarwal,William Cong,Geethika Hemkumar,Abhinav Narayan Harish,Benjamin Hong,Josh Kelle,Chen Li,Yuhao Li,Zisen Shao,Peter Stone,Josiah P. Hanna |
発行日 | 2024-12-12 16:25:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google