要約
強化学習の転移は、経験豊富なソースタスクからの知識を使用して、ターゲットタスクの学習パフォーマンスを向上させることを目的としています。
サクセサ表現 (SR) とその拡張であるサクセサ機能 (SF) は、タスク間で報酬関数が変化するドメインにおける顕著な伝達メカニズムです。
彼らは、知識を伝達するために、新しいターゲット タスクで以前に学習したポリシーの期待されるリターンを再評価します。
SF フレームワークは、報酬を後続機能と報酬重みベクトルに線形分解することで SR を拡張し、高次元タスクでの適用を可能にしました。
しかし、これには報酬関数と後続機能の間に線形関係があるという代償が伴い、そのような線形関係が存在するタスクへの適用が制限されてしまいました。
我々は、後続特徴表現 (SFR) と呼ばれる、後続特徴の累積割引確率の学習に基づいた SR の新しい定式化を提案します。
重要なのは、SFR を使用すると、一般的な報酬関数のポリシーの期待収益を再評価できるようになります。
さまざまな SFR バリエーションを導入し、その収束性を証明し、その転送パフォーマンスを保証します。
関数近似を使用した SFR に基づく実験評価は、一般的な報酬関数だけでなく、線形分解可能な報酬関数の場合でも、SF よりも SFR が優れていることを示しています。
要約(オリジナル)
Transfer in Reinforcement Learning aims to improve learning performance on target tasks using knowledge from experienced source tasks. Successor Representations (SR) and their extension Successor Features (SF) are prominent transfer mechanisms in domains where reward functions change between tasks. They reevaluate the expected return of previously learned policies in a new target task to transfer their knowledge. The SF framework extended SR by linearly decomposing rewards into successor features and a reward weight vector allowing their application in high-dimensional tasks. But this came with the cost of having a linear relationship between reward functions and successor features, limiting its application to tasks where such a linear relationship exists. We propose a novel formulation of SR based on learning the cumulative discounted probability of successor features, called Successor Feature Representations (SFR). Crucially, SFR allows to reevaluate the expected return of policies for general reward functions. We introduce different SFR variations, prove its convergence, and provide a guarantee on its transfer performance. Experimental evaluations based on SFR with function approximation demonstrate its advantage over SF not only for general reward functions, but also in the case of linearly decomposable reward functions.
arxiv情報
著者 | Chris Reinke,Xavier Alameda-Pineda |
発行日 | 2023-08-02 09:14:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google