要約
この原稿は、(深層) 強化学習と逐次的意思決定の分野の全体像と最新の概要を示し、値ベースの RL、ポリシー勾配法、モデルベースの手法、およびその他のさまざまなトピック (以下を含む) をカバーします。
RL+LLM についての非常に簡単な説明です)。
要約(オリジナル)
This manuscript gives a big-picture, up-to-date overview of the field of (deep) reinforcement learning and sequential decision making, covering value-based RL, policy-gradient methods, model-based methods, and various other topics (including a very brief discussion of RL+LLMs).
arxiv情報
著者 | Kevin Murphy |
発行日 | 2024-12-06 18:53:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google