A Definition of Continual Reinforcement Learning

要約

強化学習問題の標準的な見方では、エージェントの目標は長期的な報酬を最大化する方針を効率的に特定することである。しかし、この視点は、学習を終わりのない適応として扱うのではなく、解を見つけるという限定的な学習観に基づいている。対照的に、継続的強化学習とは、最良のエージェントが決して学習を止めない設定を指す。継続的強化学習の重要性にもかかわらず、このコミュニティには、そのコミットメントを強調し、主要な概念を正確かつ明確にするような、問題の単純な定義が欠けている。このため、本稿では、継続的強化学習問題を注意深く定義することを目的とする。我々は、エージェントを分析し分類するための新しい数学的言語を通して、「学習を止めない」エージェントの概念を公式化する。この新しい言語を用いて、我々は継続的学習エージェントを、暗黙の探索プロセスを無限に実行すると理解できるものとして定義し、継続的強化学習を、最良のエージェントがすべて継続的学習エージェントであるという設定として定義する。我々は、マルチタスク強化学習と継続的教師付き学習に関する従来の見解が、我々の定義の特別な場合であることを示す、2つの動機づけとなる例を提供する。これらの定義と視点を総合すると、学習の核心にある多くの直感的な概念が形式化され、継続的学習エージェントを取り巻く新しい研究の道が開かれる。

要約(オリジナル)

In a standard view of the reinforcement learning problem, an agent’s goal is to efficiently identify a policy that maximizes long-term reward. However, this perspective is based on a restricted view of learning as finding a solution, rather than treating learning as endless adaptation. In contrast, continual reinforcement learning refers to the setting in which the best agents never stop learning. Despite the importance of continual reinforcement learning, the community lacks a simple definition of the problem that highlights its commitments and makes its primary concepts precise and clear. To this end, this paper is dedicated to carefully defining the continual reinforcement learning problem. We formalize the notion of agents that ‘never stop learning’ through a new mathematical language for analyzing and cataloging agents. Using this new language, we define a continual learning agent as one that can be understood as carrying out an implicit search process indefinitely, and continual reinforcement learning as the setting in which the best agents are all continual learning agents. We provide two motivating examples, illustrating that traditional views of multi-task reinforcement learning and continual supervised learning are special cases of our definition. Collectively, these definitions and perspectives formalize many intuitive concepts at the heart of learning, and open new research pathways surrounding continual learning agents.

arxiv情報

著者 David Abel,André Barreto,Benjamin Van Roy,Doina Precup,Hado van Hasselt,Satinder Singh
発行日 2023-12-01 13:52:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク