Representations and Exploration for Deep Reinforcement Learning using Singular Value Decomposition

要約

タイトル:特異値分解を用いたDeep Reinforcement Learningにおける表現と探索

要約:
– Deep Reinforcement Learningにおいて、表現学習と探索は重要な課題の一つである。
– この研究では、特異値分解を用いた方法により、ドメイン内の基盤となる遷移構造を保存する表現を得ることができる。
– この表現は、状態の訪問頻度の相対的な頻度も捕捉できるため、疑似カウントの推定を無料で提供する。
– 大規模なドメインへの展開を可能にするために、特異値分解に基づくアルゴリズムを提供し、遷移行列を構築することなく、深層ネットワークを利用し、ミニバッチトレーニングを許可します。
– さらに、予測状態表現に着想を得て、不完全観測環境に対しても分解方法を拡張しています。
– 部分的に観測されたドメインのマルチタスク設定での実験により、提案された方法がDM-Lab-30環境(言語命令、画素画像、報酬などの入力が含まれる)で有用な表現を学べるだけでなく、DM-Hard-8環境でも有効になることが示されています。

要約(オリジナル)

Representation learning and exploration are among the key challenges for any deep reinforcement learning agent. In this work, we provide a singular value decomposition based method that can be used to obtain representations that preserve the underlying transition structure in the domain. Perhaps interestingly, we show that these representations also capture the relative frequency of state visitations, thereby providing an estimate for pseudo-counts for free. To scale this decomposition method to large-scale domains, we provide an algorithm that never requires building the transition matrix, can make use of deep networks, and also permits mini-batch training. Further, we draw inspiration from predictive state representations and extend our decomposition method to partially observable environments. With experiments on multi-task settings with partially observable domains, we show that the proposed method can not only learn useful representation on DM-Lab-30 environments (that have inputs involving language instructions, pixel images, and rewards, among others) but it can also be effective at hard exploration tasks in DM-Hard-8 environments.

arxiv情報

著者 Yash Chandak,Shantanu Thakoor,Zhaohan Daniel Guo,Yunhao Tang,Remi Munos,Will Dabney,Diana L Borsa
発行日 2023-05-02 04:26:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク