Domains as Objectives: Domain-Uncertainty-Aware Policy Optimization through Explicit Multi-Domain Convex Coverage Set Learning

要約

不確実性の問題は現実世界のロボット工学の問題の特徴であり、実際のアプリケーションのタスクを成功させるためには、あらゆる制御フレームワークが不確実性の問題に対処する必要があります。
強化学習も例外ではなく、モデルの不確実性や仕様の誤りから生じる認識の不確実性は、シミュレーションと現実のギャップによってよく捉えられる課題です。
この問題に対する簡単な解決策はドメイン ランダム化 (DR) ですが、残念ながらエージェントが保守的な結果になる可能性があります。
この保守性の改善策として、リカレント ニューラル ネットワーク ベースのコントローラーとともに、ランダム化されたドメインに関する追加情報を取得するユニバーサル ポリシーの使用が代替ソリューションとして浮上しています。
不確実性を認識したユニバーサル ポリシーは、展開中のシステム識別の不確実性を考慮できる特に魅力的なソリューションを提供します。
この論文では、不確実性を考慮したポリシーを効率的に最適化するという課題が、多目的強化学習 (MORL) コンテキスト内で凸カバレッジ セット (CCS) 問題を解決するものとして根本的に再構成できることを明らかにします。
各ドメインのパフォーマンスが独立した目標として扱われる新しいマルコフ意思決定プロセス (MDP) フレームワークを導入することで、不確実性を認識したポリシーのトレーニングを MORL アプローチと統合します。
この接続により、ドメインのランダム化 (DR) に MORL アルゴリズムを適用できるようになり、より効率的なポリシーの最適化が可能になります。
これを説明するために、DR 定式化における期待と一致する線形効用関数に焦点を当て、CCS を解決するために MORL 文献から適応された一連のアルゴリズムを提案し、不確実性を認識した政策のパフォーマンスを向上させる能力を実証します。

要約(オリジナル)

The problem of uncertainty is a feature of real world robotics problems and any control framework must contend with it in order to succeed in real applications tasks. Reinforcement Learning is no different, and epistemic uncertainty arising from model uncertainty or misspecification is a challenge well captured by the sim-to-real gap. A simple solution to this issue is domain randomization (DR), which unfortunately can result in conservative agents. As a remedy to this conservativeness, the use of universal policies that take additional information about the randomized domain has risen as an alternative solution, along with recurrent neural network-based controllers. Uncertainty-aware universal policies present a particularly compelling solution able to account for system identification uncertainties during deployment. In this paper, we reveal that the challenge of efficiently optimizing uncertainty-aware policies can be fundamentally reframed as solving the convex coverage set (CCS) problem within a multi-objective reinforcement learning (MORL) context. By introducing a novel Markov decision process (MDP) framework where each domain’s performance is treated as an independent objective, we unify the training of uncertainty-aware policies with MORL approaches. This connection enables the application of MORL algorithms for domain randomization (DR), allowing for more efficient policy optimization. To illustrate this, we focus on the linear utility function, which aligns with the expectation in DR formulations, and propose a series of algorithms adapted from the MORL literature to solve the CCS, demonstrating their ability to enhance the performance of uncertainty-aware policies.

arxiv情報

著者 Wendyam Eric Lionel Ilboudo,Taisuke Kobayashi,Takamitsu Matsubara
発行日 2024-10-07 03:19:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク