Robust Knowledge Transfer in Tiered Reinforcement Learning

要約

この論文では、並列転移学習フレームワークである階層型強化学習設定について研究します。その目的は、低層 (ソース) タスクから高層 (ターゲット) タスクに知識を移転して、タスクの探索リスクを軽減することです。
後者は 2 つのタスクを並行して解決します。
以前の研究とは異なり、低層タスクと高層タスクが同じダイナミクスや報酬関数を共有するとは想定しておらず、タスクの類似性に関する事前知識なしで堅牢な知識伝達に焦点を当てています。
私たちは、目的のために「最適値優位性」と呼ばれる自然かつ必要な条件を特定します。
この条件下で、高層タスクについては、タスクの類似性に応じて部分的な状態で一定のリグアランスを達成し、2 つのタスクが類似していない場合には最適に近いリグアランスを保持できる一方、低層タスクについては、新しいオンライン学習アルゴリズムを提案します。
-tier タスクでは、犠牲を払うことなくほぼ最適な状態を維持できます。
さらに、複数の下位層タスクによる設定をさらに研究し、すべての下位層タスクからの情報をアンサンブルし、はるかに大きな状態アクション空間で証明可能な利点を可能にする新しい転送ソース選択メカニズムを提案します。

要約(オリジナル)

In this paper, we study the Tiered Reinforcement Learning setting, a parallel transfer learning framework, where the goal is to transfer knowledge from the low-tier (source) task to the high-tier (target) task to reduce the exploration risk of the latter while solving the two tasks in parallel. Unlike previous work, we do not assume the low-tier and high-tier tasks share the same dynamics or reward functions, and focus on robust knowledge transfer without prior knowledge on the task similarity. We identify a natural and necessary condition called the “Optimal Value Dominance” for our objective. Under this condition, we propose novel online learning algorithms such that, for the high-tier task, it can achieve constant regret on partial states depending on the task similarity and retain near-optimal regret when the two tasks are dissimilar, while for the low-tier task, it can keep near-optimal without making sacrifice. Moreover, we further study the setting with multiple low-tier tasks, and propose a novel transfer source selection mechanism, which can ensemble the information from all low-tier tasks and allow provable benefits on a much larger state-action space.

arxiv情報

著者 Jiawei Huang,Niao He
発行日 2023-10-10 12:45:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク