要約
量子化学の分子特性を予測するためのグラフベースの手法 – 3次元空間の分子内での原子の位置 – Q-Marlは、一般的な報酬やエージェントの注文のような強力な仮定を必要とする非常に大規模なマルチエージェント強化学習シナリオをサポートする完全に分散した学習アーキテクチャであるQ-Marlを提示します。
重要なのは、動的に変化すると推定される環境で、各エージェントを周囲のエージェントと比較して扱うことです。
したがって、各タイムステップで、エージェントはそれ自体の近所の中心であり、他の多くのエージェントの近隣でもあります。
各役割はサブグラフとして策定され、各サブグラフはトレーニングサンプルとして使用されます。
メッセージを通過するニューラルネットワークは、地元の近隣内でのフルスケールの頂点とエッジの相互作用をサポートし、サブグラフの深さを管理するパラメーターはトレーニングの負担を緩和します。
テスト中、エージェントのアクションは、それを含むすべてのサブグラフに局所的にアンサンスされており、堅牢な決定をもたらします。
他のアプローチが50のエージェントを管理するのに苦労している場合、Q-Marlは数千人を容易にマーシャルできます。
詳細な理論的分析は改善と収束を証明し、典型的な共同および競争的なシナリオを備えたシミュレーションは、トレーニングの速度を劇的に高速化し、トレーニング損失を減らします。
要約(オリジナル)
Inspired by a graph-based technique for predicting molecular properties in quantum chemistry — atoms’ position within molecules in three-dimensional space — we present Q-MARL, a completely decentralised learning architecture that supports very large-scale multi-agent reinforcement learning scenarios without the need for strong assumptions like common rewards or agent order. The key is to treat each agent as relative to its surrounding agents in an environment that is presumed to change dynamically. Hence, in each time step, an agent is the centre of its own neighbourhood and also a neighbour to many other agents. Each role is formulated as a sub-graph, and each sub-graph is used as a training sample. A message-passing neural network supports full-scale vertex and edge interaction within a local neighbourhood, while a parameter governing the depth of the sub-graphs eases the training burden. During testing, an agent’s actions are locally ensembled across all the sub-graphs that contain it, resulting in robust decisions. Where other approaches struggle to manage 50 agents, Q-MARL can easily marshal thousands. A detailed theoretical analysis proves improvement and convergence, and simulations with the typical collaborative and competitive scenarios show dramatically faster training speeds and reduced training losses.
arxiv情報
著者 | Kha Vo,Chin-Teng Lin |
発行日 | 2025-03-10 14:43:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google