When does Self-Prediction help? Understanding Auxiliary Tasks in Reinforcement Learning

要約

強化学習における表現学習問題に対する観察再構成や潜在自己予測などの補助学習タスクの影響を調査します。
また、それらが MDP の気晴らしや観察機能とどのように相互作用するかについても研究します。
線形モデルの仮定の下で、注意散漫や観察関数の存在下での観察再構成、潜在的自己予測、TD 学習の学習ダイナミクスの理論的分析を提供します。
この形式化により、潜在自己予測が \emph{補助タスク} として役立つ理由を説明できる一方、観察の再構成は単独で使用するとより便利な機能を提供できるのです。
私たちの経験的分析は、学習ダイナミクス フレームワークから得られた洞察が、非線形ニューラル ネットワークにおける線形モデルの仮定を超えてこれらの損失関数の動作を予測することを示しています。
これにより、線形モデル フレームワークの理論的分析だけでなく、応用問題に対する実際的な利点も強化されます。

要約(オリジナル)

We investigate the impact of auxiliary learning tasks such as observation reconstruction and latent self-prediction on the representation learning problem in reinforcement learning. We also study how they interact with distractions and observation functions in the MDP. We provide a theoretical analysis of the learning dynamics of observation reconstruction, latent self-prediction, and TD learning in the presence of distractions and observation functions under linear model assumptions. With this formalization, we are able to explain why latent-self prediction is a helpful \emph{auxiliary task}, while observation reconstruction can provide more useful features when used in isolation. Our empirical analysis shows that the insights obtained from our learning dynamics framework predicts the behavior of these loss functions beyond the linear model assumption in non-linear neural networks. This reinforces the usefulness of the linear model framework not only for theoretical analysis, but also practical benefit for applied problems.

arxiv情報

著者 Claas Voelcker,Tyler Kastner,Igor Gilitschenski,Amir-massoud Farahmand
発行日 2024-06-25 17:06:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク