Distributed TD(0) with Almost No Communication


私たちのアプローチは、$N$ エージェントが TD(0) メソッドの同一のローカル コピーを実行し、最後に 1 回だけ結果を平均する「ワンショット平均化」に依存しています。
線形時間高速化現象のバージョンを示します。分散プロセスの収束時間は、TD(0) の収束時間よりも $N$ 倍速くなります。


We provide a new non-asymptotic analysis of distributed temporal difference learning with linear function approximation. Our approach relies on “one-shot averaging,” where $N$ agents run identical local copies of the TD(0) method and average the outcomes only once at the very end. We demonstrate a version of the linear time speedup phenomenon, where the convergence time of the distributed process is a factor of $N$ faster than the convergence time of TD(0). This is the first result proving benefits from parallelism for temporal difference methods.


著者 Rui Liu,Alex Olshevsky
発行日 2023-05-25 17:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC パーマリンク