要約
我々は、協調が中心となる協調型マルチエージェント強化学習環境であるレーザー学習環境(LLE)を紹介する。LLEでは、エージェントは互いに依存し合い(相互依存)、成功するためには特定の行動シーケンスを共同で取らなければならず(完全協調)、それらの共同行動を達成しても中間報酬は得られない(ゼロインセンティブダイナミクス)。このような問題の課題は、相互依存ステップによって引き起こされる状態空間ボトルネックからの脱出が困難であることにある。我々は、複数の最新の価値ベースのMARLアルゴリズムをLLEに対してテストし、完全な協調を達成することに成功しても、状態空間のボトルネックから逃れることができないため、協調タスクでは一貫して失敗することを示す。我々は、優先順位をつけた経験再生やnステップリターンなどのQ学習拡張が、ゼロインセンティブダイナミクスを持つ環境での探索を妨げることを示し、ランダムなネットワーク蒸留を伴う内在的好奇心は、これらのボトルネックから脱出するのに十分ではないことを見出す。この問題を解決するための新しい手法の必要性と、協調的MARLベンチマークとしてのLLEの妥当性を示す。
要約(オリジナル)
We introduce the Laser Learning Environment (LLE), a collaborative multi-agent reinforcement learning environment in which coordination is central. In LLE, agents depend on each other to make progress (interdependence), must jointly take specific sequences of actions to succeed (perfect coordination), and accomplishing those joint actions does not yield any intermediate reward (zero-incentive dynamics). The challenge of such problems lies in the difficulty of escaping state space bottlenecks caused by interdependence steps since escaping those bottlenecks is not rewarded. We test multiple state-of-the-art value-based MARL algorithms against LLE and show that they consistently fail at the collaborative task because of their inability to escape state space bottlenecks, even though they successfully achieve perfect coordination. We show that Q-learning extensions such as prioritized experience replay and n-steps return hinder exploration in environments with zero-incentive dynamics, and find that intrinsic curiosity with random network distillation is not sufficient to escape those bottlenecks. We demonstrate the need for novel methods to solve this problem and the relevance of LLE as cooperative MARL benchmark.
arxiv情報
著者 | Yannick Molinghen,Raphaël Avalos,Mark Van Achter,Ann Nowé,Tom Lenaerts |
発行日 | 2024-04-04 17:05:42+00:00 |
arxivサイト | arxiv_id(pdf) |