Learning when to observe: A frugal reinforcement learning framework for a high-cost world

要約

強化学習 (RL) は、ゲーム、ロボット工学、冷暖房システム、テキスト生成などの複雑なタスクに対する高度な制御ポリシーを学習することが示されています。
ただし、RL における行動と知覚のサイクルは、一般に、環境の状態の測定がコストなしで各タイム ステップで利用できることを前提としています。
ただし、材料設計、深海および惑星のロボット探査、医療などの用途では、環境の状態の測定、さらには近似に関連して高額なコストがかかる可能性があります。
この論文では、RL エージェントが各タイム ステップでのコストのかかる測定を必要としない、あるいは望んでいない可能性があるという観点を取り入れた、最近増加している文献を調査します。
この文脈の中で、私たちは Deep Dynamic Multi-Step Observationless Agent (DMSOA) を提案し、それを文献と対比し、OpenAI ジムと Atari Pong 環境で実証的に評価します。
私たちの結果は、DMSOA が文献から検討された代替案よりも少ない意思決定ステップと測定でより良いポリシーを学習することを示しています。
対応するコードは次の場所から入手できます: \url{https://github.com/cbellinger27/Learning-when-to-observe-in-RL

要約(オリジナル)

Reinforcement learning (RL) has been shown to learn sophisticated control policies for complex tasks including games, robotics, heating and cooling systems and text generation. The action-perception cycle in RL, however, generally assumes that a measurement of the state of the environment is available at each time step without a cost. In applications such as materials design, deep-sea and planetary robot exploration and medicine, however, there can be a high cost associated with measuring, or even approximating, the state of the environment. In this paper, we survey the recently growing literature that adopts the perspective that an RL agent might not need, or even want, a costly measurement at each time step. Within this context, we propose the Deep Dynamic Multi-Step Observationless Agent (DMSOA), contrast it with the literature and empirically evaluate it on OpenAI gym and Atari Pong environments. Our results, show that DMSOA learns a better policy with fewer decision steps and measurements than the considered alternative from the literature. The corresponding code is available at: \url{https://github.com/cbellinger27/Learning-when-to-observe-in-RL

arxiv情報

著者 Colin Bellinger,Mark Crowley,Isaac Tamblyn
発行日 2023-07-24 14:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.AI, cs.LG, I.2.0 パーマリンク