Tempo Adaption in Non-stationary Reinforcement Learning

要約

我々はまず、非定常強化学習(RL)におけるエージェントと環境の間の「時間同期」の問題を提起し、これに取り組みます。これは、現実世界への応用を妨げる重要な要因です。
実際には、環境の変化はエピソードの進行 ($k$) ではなく実時間 ($\mathfrak{t}$) にわたって発生します。実時間は、固定期間 $\mathfrak{t} 内の実際の経過時間を意味します。
\in [0, T]$。
既存の作品では、エピソード $k$ で、エージェントはエピソード $k+1$ に移行する前に軌道を展開し、ポリシーをトレーニングします。
ただし、時間非同期環境のコンテキストでは、エージェントは $\mathfrak{t}_k$ の時点で軌道生成とトレーニングに $\Delta \mathfrak{t}$ を割り当て、その後 $\mathfrak の次のエピソードに移動します。
{t}_{k+1}=\mathfrak{t}_{k}+\デルタ \mathfrak{t}$。
合計エピソード ($K$) が固定されているにもかかわらず、エージェントは \textit{インタラクション時間} ($\mathfrak{t}_1,\mathfrak{t}_2,…,\mathfrak{
t}_K$)、ポリシーの次善のギャップに大きな影響を与えます。
私たちは、最適な $\{ \mathfrak{t}_1,\mathfrak{t}_2,…,\mathfrak{t}_K \} (= \{ \mathfrak{t) を計算する Proactively Synchronizing Tempo (ProST) フレームワークを提案します。
} \}_{1:K})$。
私たちの主な貢献は、ポリシーのトレーニング時間 (エージェントのテンポ) と環境の変化の速さ (環境のテンポ) の間の最適な $\{ \mathfrak{t} \}_{1:K}$ のトレードオフを示したことです。
理論的には、この研究は、環境の非定常性の程度の関数として最適な $\{ \mathfrak{t} \}_{1:K}$ を確立し、同時に線形未満の動的リグレスも達成します。
さまざまな高次元の非定常環境での実験評価では、ProST フレームワークが最適な $\{ \mathfrak{t} \}_{1:K}$ で既存の手法よりも高いオンライン リターンを達成することが示されています。

要約(オリジナル)

We first raise and tackle “time synchronization” issue between the agent and the environment in non-stationary reinforcement learning (RL), a crucial factor hindering its real-world applications. In reality, environmental changes occur over wall-clock time ($\mathfrak{t}$) rather than episode progress ($k$), where wall-clock time signifies the actual elapsed time within the fixed duration $\mathfrak{t} \in [0, T]$. In existing works, at episode $k$, the agent rollouts a trajectory and trains a policy before transitioning to episode $k+1$. In the context of the time-desynchronized environment, however, the agent at time $\mathfrak{t}_k$ allocates $\Delta \mathfrak{t}$ for trajectory generation and training, subsequently moves to the next episode at $\mathfrak{t}_{k+1}=\mathfrak{t}_{k}+\Delta \mathfrak{t}$. Despite a fixed total episode ($K$), the agent accumulates different trajectories influenced by the choice of \textit{interaction times} ($\mathfrak{t}_1,\mathfrak{t}_2,…,\mathfrak{t}_K$), significantly impacting the sub-optimality gap of policy. We propose a Proactively Synchronizing Tempo (ProST) framework that computes optimal $\{ \mathfrak{t}_1,\mathfrak{t}_2,…,\mathfrak{t}_K \} (= \{ \mathfrak{t} \}_{1:K})$. Our main contribution is that we show optimal $\{ \mathfrak{t} \}_{1:K}$ trades-off between the policy training time (agent tempo) and how fast the environment changes (environment tempo). Theoretically, this work establishes an optimal $\{ \mathfrak{t} \}_{1:K}$ as a function of the degree of the environment’s non-stationarity while also achieving a sublinear dynamic regret. Our experimental evaluation on various high dimensional non-stationary environments shows that the ProST framework achieves a higher online return at optimal $\{ \mathfrak{t} \}_{1:K}$ than the existing methods.

arxiv情報

著者 Hyunin Lee,Yuhao Ding,Jongmin Lee,Ming Jin,Javad Lavaei,Somayeh Sojoudi
発行日 2023-09-26 15:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク