CAT: Caution Aware Transfer in Reinforcement Learning via Distributional Risk

要約

強化学習 (RL) における転移学習は、以前に学習したタスクからの知識を利用することで、まだ見たことのない新しいタスクでのデータ効率を向上させるための極めて重要な戦略となっています。
このアプローチは、計算リソースに制約があり、エージェントが新しい環境に迅速に適応する必要がある現実世界の展開シナリオで特に有益です。
しかし、現在の最先端の方法では、特に展開段階で予期せぬリスクが発生した場合、移送プロセス中の安全性を確保するには不十分であることがよくあります。
この研究では、新しい注意認識転移学習 (CAT) フレームワークを導入することで、これらの制限に対処します。
リスクの考慮事項を平均分散に限定する従来のアプローチとは異なり、当社では「注意」をより一般化された包括的なリスクの概念として定義します。
私たちの中心的なイノベーションは、移転プロセス中に、州の行動による占有率の測定に基づいて、報酬リターンと警告の加重合計を最適化し、多様なリスク要因を豊富に表現できるようにすることにあります。
私たちの知る限り、これは移転 RL の文脈内でそのような一般化されたリスク概念の最適化を探求した最初の研究です。
私たちの貢献は 3 つあります。 (1) テスト環境内でソース ポリシーを評価し、報酬の最大化と注意のバランスをとった新しいポリシーを構築する、注意認識転送 (CAT) フレームワークを提案します。
(2) 私たちは、私たちの方法の理論的な準最適限界を導き出し、その有効性の厳密な保証を提供します。
(3) 我々は CAT を経験的に検証し、テスト タスクのさまざまなリスク条件下でより安全なポリシーを提供することにより、既存の方法よりも一貫して優れたパフォーマンスを発揮することを実証しました。

要約(オリジナル)

Transfer learning in reinforcement learning (RL) has become a pivotal strategy for improving data efficiency in new, unseen tasks by utilizing knowledge from previously learned tasks. This approach is especially beneficial in real-world deployment scenarios where computational resources are constrained and agents must adapt rapidly to novel environments. However, current state-of-the-art methods often fall short in ensuring safety during the transfer process, particularly when unforeseen risks emerge in the deployment phase. In this work, we address these limitations by introducing a novel Caution-Aware Transfer Learning (CAT) framework. Unlike traditional approaches that limit risk considerations to mean-variance, we define ‘caution’ as a more generalized and comprehensive notion of risk. Our core innovation lies in optimizing a weighted sum of reward return and caution-based on state-action occupancy measures-during the transfer process, allowing for a rich representation of diverse risk factors. To the best of our knowledge, this is the first work to explore the optimization of such a generalized risk notion within the context of transfer RL. Our contributions are threefold: (1) We propose a Caution-Aware Transfer (CAT) framework that evaluates source policies within the test environment and constructs a new policy that balances reward maximization and caution. (2) We derive theoretical sub-optimality bounds for our method, providing rigorous guarantees of its efficacy. (3) We empirically validate CAT, demonstrating that it consistently outperforms existing methods by delivering safer policies under varying risk conditions in the test tasks.

arxiv情報

著者 Mohamad Fares El Hajj Chehade,Amrit Singh Bedi,Amy Zhang,Hao Zhu
発行日 2024-08-16 15:47:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク