Towards Generalizability of Multi-Agent Reinforcement Learning in Graphs with Recurrent Message Passing

要約

グラフベースの環境は、マルチエージェント強化学習に特有の課題をもたらします。
分散型アプローチでは、エージェントは特定のグラフ内で動作し、部分的または古い観察に基づいて意思決定を行います。
観察される近傍のサイズは、さまざまなグラフへの一般化可能性を制限し、エージェントの反応性、選択されたアクションの品質、および通信オーバーヘッドに影響を与えます。
この研究は一般化可能性に焦点を当てており、グラフ全体の連続的な情報フローと観察される近傍サイズのトレードオフを解決します。
我々は、環境のステップを反復し、ノードが隣接するノードとメッセージを交換することによってグラフのグローバル表現を作成できるようにする、再帰的なメッセージパッシングモデルを提案します。
エージェントは、グラフ内の位置に基づいて、学習されたグラフ観測結果を受け取ります。
私たちのアプローチは、実行時に分散型で使用でき、選択した強化学習アルゴリズムと組み合わせて使用​​できます。
私たちは、通信ネットワークにおけるルーティングのコンテキストで 1000 の多様なグラフにわたってこの方法を評価し、エージェントが一般化してグラフの変化に適応できることを発見しました。

要約(オリジナル)

Graph-based environments pose unique challenges to multi-agent reinforcement learning. In decentralized approaches, agents operate within a given graph and make decisions based on partial or outdated observations. The size of the observed neighborhood limits the generalizability to different graphs and affects the reactivity of agents, the quality of the selected actions, and the communication overhead. This work focuses on generalizability and resolves the trade-off in observed neighborhood size with a continuous information flow in the whole graph. We propose a recurrent message-passing model that iterates with the environment’s steps and allows nodes to create a global representation of the graph by exchanging messages with their neighbors. Agents receive the resulting learned graph observations based on their location in the graph. Our approach can be used in a decentralized manner at runtime and in combination with a reinforcement learning algorithm of choice. We evaluate our method across 1000 diverse graphs in the context of routing in communication networks and find that it enables agents to generalize and adapt to changes in the graph.

arxiv情報

著者 Jannis Weil,Zhenghua Bao,Osama Abboud,Tobias Meuser
発行日 2024-02-07 16:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA パーマリンク