要約
サンプル効率は、複雑かつ大規模な意思決定問題に対する実践的な強化学習 (RL) を開発する上で中心となります。
以前の経験から得た知識を下流のタスクに転送および一般化する機能により、サンプルの効率が大幅に向上します。
最近の研究では、後続機能 (SF) RL アルゴリズムにより、報酬は異なるが遷移ダイナミクスが同一であるタスク間の知識の一般化が可能になることが示されています。
最近、モデルベース (MB) 手法と SF アルゴリズムを組み合わせることで、固定遷移ダイナミクスの制限を緩和できるという仮説が立てられています。
さらに、不確実性を意識した探査は、サンプル効率を向上させるもう 1 つの魅力的なアプローチとして広く認識されています。
ハイブリッド モデルベースの後続機能 (MB-SF) と不確実性の 2 つのアイデアをまとめると、異なる遷移ダイナミクスや報酬関数を持つタスク間で不確実性を意識した知識を効率的に転送するサンプルの問題へのアプローチが得られます。
本論文では、各アクションの値の不確実性をカルマンフィルター(KF)ベースの複数モデル適応推定によって近似する。
この KF ベースのフレームワークは、モデルのパラメーターを確率変数として扱います。
私たちの知る限り、これは、MB 手法よりも意思決定時の計算量が少なく、さまざまな遷移ダイナミクスを伴う大規模または連続状態空間タスクにわたる知識を一般化できるハイブリッド MB-SF アルゴリズムを定式化する最初の試みです。
タスクの学習に必要なサンプル数を、最近の SF および MB のベースラインと比較しました。
結果は、私たちのアルゴリズムがさまざまな遷移ダイナミクスにわたる知識を一般化し、最初から開始するよりも大幅に少ないサンプルで下流タスクを学習し、既存のアプローチを上回るパフォーマンスを示していることを示しています。
要約(オリジナル)
Sample efficiency is central to developing practical reinforcement learning (RL) for complex and large-scale decision-making problems. The ability to transfer and generalize knowledge gained from previous experiences to downstream tasks can significantly improve sample efficiency. Recent research indicates that successor feature (SF) RL algorithms enable knowledge generalization between tasks with different rewards but identical transition dynamics. It has recently been hypothesized that combining model-based (MB) methods with SF algorithms can alleviate the limitation of fixed transition dynamics. Furthermore, uncertainty-aware exploration is widely recognized as another appealing approach for improving sample efficiency. Putting together two ideas of hybrid model-based successor feature (MB-SF) and uncertainty leads to an approach to the problem of sample efficient uncertainty-aware knowledge transfer across tasks with different transition dynamics or/and reward functions. In this paper, the uncertainty of the value of each action is approximated by a Kalman filter (KF)-based multiple-model adaptive estimation. This KF-based framework treats the parameters of a model as random variables. To the best of our knowledge, this is the first attempt at formulating a hybrid MB-SF algorithm capable of generalizing knowledge across large or continuous state space tasks with various transition dynamics while requiring less computation at decision time than MB methods. The number of samples required to learn the tasks was compared to recent SF and MB baselines. The results show that our algorithm generalizes its knowledge across different transition dynamics, learns downstream tasks with significantly fewer samples than starting from scratch, and outperforms existing approaches.
arxiv情報
著者 | Parvin Malekzadeh,Ming Hou,Konstantinos N. Plataniotis |
発行日 | 2024-07-22 16:47:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google