Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning

要約

大規模な分散機械学習では、最近の研究で、通信のボトルネックを軽減するための確率的最適化における勾配の圧縮の効果が研究されています。
これらの研究により、確率的勾配降下法 (SGD) が量子化、スパース化、遅延などの構造化摂動に対して堅牢であることが明らかになりました。
おそらく驚くべきことに、マルチエージェント強化学習への関心が高まっているにもかかわらず、「一般的な強化学習 (RL) アルゴリズムは同様の摂動に対しても堅牢ですか?」という類似の質問についてはほとんど何も知られていません。
我々は、摂動をモデル化するために一般的な圧縮演算子を使用する、摂動のある更新方向を使用した古典的な時間差分 (TD) 学習アルゴリズムの変形を研究することによって、この問題を調査します。
私たちの仕事は 3 つの重要な技術的貢献をもたらします。
まず、圧縮 TD アルゴリズムは、最適化で広く使用されているエラー フィードバック メカニズムと組み合わせることで、対応する SGD と同じ非漸近的な理論的保証を示すことを証明します。
第二に、私たちの分析フレームワークが Q 学習を包含する非線形確率近似スキームにシームレスに拡張されることを示します。
第三に、マルチエージェント TD 学習の場合、反復ごとにわずか $\tilde{O}(1)$ ビットを通信しながら、エージェントの数に関して線形収束の高速化を達成できることを証明します。
注目すべきことに、これらは、線形関数近似およびマルコフ サンプリングと並行して、一般的な圧縮演算子および誤差フィードバックを考慮した、RL における最初の有限時間結果です。
私たちの証明は、エラーフィードバックによって導入されたメモリ変数のダイナミクスを捉える新しいリアプノフ関数の構築にかかっています。

要約(オリジナル)

In large-scale distributed machine learning, recent works have studied the effects of compressing gradients in stochastic optimization to alleviate the communication bottleneck. These works have collectively revealed that stochastic gradient descent (SGD) is robust to structured perturbations such as quantization, sparsification, and delays. Perhaps surprisingly, despite the surge of interest in multi-agent reinforcement learning, almost nothing is known about the analogous question: Are common reinforcement learning (RL) algorithms also robust to similar perturbations? We investigate this question by studying a variant of the classical temporal difference (TD) learning algorithm with a perturbed update direction, where a general compression operator is used to model the perturbation. Our work makes three important technical contributions. First, we prove that compressed TD algorithms, coupled with an error-feedback mechanism used widely in optimization, exhibit the same non-asymptotic theoretical guarantees as their SGD counterparts. Second, we show that our analysis framework extends seamlessly to nonlinear stochastic approximation schemes that subsume Q-learning. Third, we prove that for multi-agent TD learning, one can achieve linear convergence speedups with respect to the number of agents while communicating just $\tilde{O}(1)$ bits per iteration. Notably, these are the first finite-time results in RL that account for general compression operators and error-feedback in tandem with linear function approximation and Markovian sampling. Our proofs hinge on the construction of novel Lyapunov functions that capture the dynamics of a memory variable introduced by error-feedback.

arxiv情報

著者 Aritra Mitra,George J. Pappas,Hamed Hassani
発行日 2024-06-04 15:40:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY, math.OC パーマリンク