要約
強化学習アルゴリズムは通常、1 つの特定のタスクを解決するためのポリシーを最適化しようとします。
推定されたモデルがダイナミクスをグローバルに近似し、複数の下流タスクをゼロショットで解決できるようにするには、未知の力学システムをどのように探索すればよいでしょうか?
この論文では、アクティブな探索のためのアルゴリズム (OPAX) を開発することで、この課題に取り組みます。
OPAX は、よく調整された確率モデルを使用して、未知のダイナミクスに関する認識論的な不確実性を定量化します。
楽観的に言えば、
もっともらしいダイナミクスへ — 未知のダイナミクスと状態観察の間の情報利得を最大化します。
結果として得られる最適化問題を、標準的なアプローチを使用して各エピソードで解決できる最適な制御問題にどのように還元できるかを示します。
私たちは一般モデルのアルゴリズムを分析し、ガウス過程ダイナミクスの場合、これまでにないサンプル複雑さ限界を与え、認識論的不確実性がゼロに収束することを示しました。
私たちの実験では、いくつかの環境で OPAX を他のヒューリスティックなアクティブ探索アプローチと比較しました。
私たちの実験では、OPAX が理論的に適切であるだけでなく、新しい下流タスクのゼロショット プランニングでも優れたパフォーマンスを発揮することがわかりました。
要約(オリジナル)
Reinforcement learning algorithms commonly seek to optimize policies for solving one particular task. How should we explore an unknown dynamical system such that the estimated model globally approximates the dynamics and allows us to solve multiple downstream tasks in a zero-shot manner? In this paper, we address this challenge, by developing an algorithm — OPAX — for active exploration. OPAX uses well-calibrated probabilistic models to quantify the epistemic uncertainty about the unknown dynamics. It optimistically — w.r.t. to plausible dynamics — maximizes the information gain between the unknown dynamics and state observations. We show how the resulting optimization problem can be reduced to an optimal control problem that can be solved at each episode using standard approaches. We analyze our algorithm for general models, and, in the case of Gaussian process dynamics, we give a first-of-its-kind sample complexity bound and show that the epistemic uncertainty converges to zero. In our experiments, we compare OPAX with other heuristic active exploration approaches on several environments. Our experiments show that OPAX is not only theoretically sound but also performs well for zero-shot planning on novel downstream tasks.
arxiv情報
著者 | Bhavya Sukhija,Lenart Treven,Cansu Sancaktar,Sebastian Blaes,Stelian Coros,Andreas Krause |
発行日 | 2023-10-30 15:18:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google