要約
最近、テンソル ネットワーク (TN) には、単一エージェントの有限マルコフ決定プロセス (FMDP) の期待されるリターンを表現する能力があることが示されました。
TN は、すべての可能な軌跡が考慮される分布モデルを表します。
これらのアイデアをマルチエージェント設定に拡張すると、分散モデルは次元の呪い、つまり可能な軌道の数とエージェントの数の間の指数関係に悩まされることになります。
この設定で TN を使用する主な利点は、TN に固有の確立された最適化および分解テクニックが多数存在し、これらを適用して最も効率的な表現を確実に見つけることができることです。
このレポートでは、これらのメソッドを使用して、マルチエージェント強化学習 (MARL) タスクの期待されるリターンを表す TN を形成します。
次に、このモデルは 2 エージェントのランダム ウォーカーの例に適用され、DMRG 手法を使用してポリシーが正しく最適化されていることが示されました。
最後に、情報をまったく失わずにテンソルの要素数を 97.5% 削減する、正確な分解手法の使用を示します。
要約(オリジナル)
Recently it has been shown that tensor networks (TNs) have the ability to represent the expected return of a single-agent finite Markov decision process (FMDP). The TN represents a distribution model, where all possible trajectories are considered. When extending these ideas to a multi-agent setting, distribution models suffer from the curse of dimensionality: the exponential relation between the number of possible trajectories and the number of agents. The key advantage of using TNs in this setting is that there exists a large number of established optimisation and decomposition techniques that are specific to TNs, that one can apply to ensure the most efficient representation is found. In this report, these methods are used to form a TN that represents the expected return of a multi-agent reinforcement learning (MARL) task. This model is then applied to a 2 agent random walker example, where it was shown that the policy is correctly optimised using a DMRG technique. Finally, I demonstrate the use of an exact decomposition technique, reducing the number of elements in the tensors by 97.5%, without experiencing any loss of information.
arxiv情報
著者 | Sunny Howard |
発行日 | 2024-01-08 13:50:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google