An introduction to reinforcement learning for neuroscience

要約

強化学習には、時間差分学習の報酬予測誤差信号としてのドーパミンに関する初期の研究 (Schultz et al., 1997) から、ドーパミンが 1997 年に普及した「分布強化学習」の形式を実装できることを示唆した最近の研究まで、神経科学において豊かな歴史があります。
深層学習 (Dabney et al., 2020)。
この文献全体を通して、強化学習における理論的な進歩と神経科学的な実験や発見の間には密接な関係があります。
その結果、実験データを説明する理論はますます複雑になり、理解するのが困難になりました。
このレビューでは、強化学習における古典的な研究の基礎となる基本理論を取り上げ、システム神経科学で応用が見出された現代の深層強化学習の手法の入門的な概要を構築します。
まず強化学習問題と古典的な時間差分アルゴリズムの概要を説明し、続いて「モデルフリー」および「モデルベース」の強化学習と、これら 2 つの両極端の間にある DYNA や後継表現などの手法について説明します。

これらのセクション全体を通じて、このような機械学習手法と、実験的および理論的神経科学の両方における関連研究との密接な類似点を強調します。
次に、メタ強化学習 (Wang et al., 2018) や分布強化学習 (Dabney et al., 2018) など、システム神経科学におけるさまざまな学習現象をモデル化するためにこれらの手法がどのように使用されているかの例を示しながら、深層強化学習の概要を説明します。
、2020)。
この作業で説明したメソッドを実装し、図を生成するコードも提供されます。

要約(オリジナル)

Reinforcement learning has a rich history in neuroscience, from early work on dopamine as a reward prediction error signal for temporal difference learning (Schultz et al., 1997) to recent work suggesting that dopamine could implement a form of ‘distributional reinforcement learning’ popularized in deep learning (Dabney et al., 2020). Throughout this literature, there has been a tight link between theoretical advances in reinforcement learning and neuroscientific experiments and findings. As a result, the theories describing our experimental data have become increasingly complex and difficult to navigate. In this review, we cover the basic theory underlying classical work in reinforcement learning and build up to an introductory overview of methods in modern deep reinforcement learning that have found applications in systems neuroscience. We start with an overview of the reinforcement learning problem and classical temporal difference algorithms, followed by a discussion of ‘model-free’ and ‘model-based’ reinforcement learning together with methods such as DYNA and successor representations that fall in between these two extremes. Throughout these sections, we highlight the close parallels between such machine learning methods and related work in both experimental and theoretical neuroscience. We then provide an introduction to deep reinforcement learning with examples of how these methods have been used to model different learning phenomena in systems neuroscience, such as meta-reinforcement learning (Wang et al., 2018) and distributional reinforcement learning (Dabney et al., 2020). Code that implements the methods discussed in this work and generates the figures is also provided.

arxiv情報

著者 Kristopher T. Jensen
発行日 2024-08-01 16:07:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC パーマリンク