Harnessing Discrete Representations For Continual Reinforcement Learning

要約

強化学習 (RL) エージェントは、環境からの観察のみを使用して意思決定を行うため、それらの観察の表現に大きく依存します。
最近のブレークスルーでは、しばしば離散表現と呼ばれるベクトルベースの観測値のカテゴリ表現が使用されていますが、そのような選択の重要性を明確に評価した研究はほとんどありません。
この研究では、強化学習のコンテキスト内で観測値をカテゴリ値のベクトルとして表すことの利点について、徹底的な実証的調査を提供します。
私たちは、ワールド モデル学習、モデルフリー RL、そして最終的には継続的 RL 問題の評価を実行します。この場合、メリットが問題設定のニーズと最もよく一致します。
従来の連続表現と比較すると、離散表現で学習された世界モデルは、少ない容量でより多くの世界を正確にモデル化し、離散表現で訓練されたエージェントはより少ないデータでより良いポリシーを学習できることがわかりました。
継続的な RL のコンテキストでは、これらの利点はエージェントの適応の迅速化につながります。
さらに、私たちの分析は、観察されたパフォーマンスの向上は、潜在ベクトルに含まれる情報と、潜在的には離散表現自体のエンコードに起因する可能性があることを示唆しています。

要約(オリジナル)

Reinforcement learning (RL) agents make decisions using nothing but observations from the environment, and consequently, heavily rely on the representations of those observations. Though some recent breakthroughs have used vector-based categorical representations of observations, often referred to as discrete representations, there is little work explicitly assessing the significance of such a choice. In this work, we provide a thorough empirical investigation of the advantages of representing observations as vectors of categorical values within the context of reinforcement learning. We perform evaluations on world-model learning, model-free RL, and ultimately continual RL problems, where the benefits best align with the needs of the problem setting. We find that, when compared to traditional continuous representations, world models learned over discrete representations accurately model more of the world with less capacity, and that agents trained with discrete representations learn better policies with less data. In the context of continual RL, these benefits translate into faster adapting agents. Additionally, our analysis suggests that the observed performance improvements can be attributed to the information contained within the latent vectors and potentially the encoding of the discrete representation itself.

arxiv情報

著者 Edan Meyer,Adam White,Marlos C. Machado
発行日 2023-12-05 18:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク