要約
人工知能における長年の課題は生涯にわたる強化学習であり、学習者は多くのタスクを順番に与えられ、致命的な忘れを避けながらタスク間で知識を伝達する必要があります。
ポリシーの再利用およびその他のマルチポリシー強化学習手法は、複数のタスクを学習できますが、多くのポリシーを生成する可能性があります。
この論文では、2 つの新しい貢献を紹介します。1) ライフタイム ポリシー再利用。ポリシー最適化と適応ポリシー選択の組み合わせを通じて、最適に近い固定数のポリシーを最適化することで、多数のポリシーの生成を回避する、モデルに依存しないポリシー再利用アルゴリズムです。
2) タスク容量。ポリシーが正確に解決できるタスクの最大数の尺度。
2 つの最先端の基本学習器を比較した結果は、18 タスクの部分的に観察可能なパックマン ドメインと最大 125 タスクのカートポール ドメインにおけるライフタイム ポリシーの再利用とタスク容量に基づく事前選択の重要性を示しています。
要約(オリジナル)
A long-standing challenge in artificial intelligence is lifelong reinforcement learning, where learners are given many tasks in sequence and must transfer knowledge between tasks while avoiding catastrophic forgetting. Policy reuse and other multi-policy reinforcement learning techniques can learn multiple tasks but may generate many policies. This paper presents two novel contributions, namely 1) Lifetime Policy Reuse, a model-agnostic policy reuse algorithm that avoids generating many policies by optimising a fixed number of near-optimal policies through a combination of policy optimisation and adaptive policy selection; and 2) the task capacity, a measure for the maximal number of tasks that a policy can accurately solve. Comparing two state-of-the-art base-learners, the results demonstrate the importance of Lifetime Policy Reuse and task capacity based pre-selection on an 18-task partially observable Pacman domain and a Cartpole domain of up to 125 tasks.
arxiv情報
著者 | David M. Bossens,Adam J. Sobey |
発行日 | 2023-10-20 14:02:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google