要約
タスクに頑健な適応は、逐次的な意思決定における長年の課題である。いくつかのリスク回避戦略、例えば条件付きバリューアットリスク原理は、最適化において困難なタスクに優先順位をつけるために、領域ランダム化やメタ強化学習に取り入れられている。効率性の問題は、適応的な政策を訓練するための頑健な能動的タスクサンプリングの開発を促し、リスク予測モデルは政策評価の代替に用いられる。本研究では、ロバスト・アクティブ・タスク・サンプリングの最適化パイプラインをマルコフ決定過程として特徴付け、理論的かつ実用的な洞察を提示し、リスク回避シナリオにおけるロバスト性の概念を構成する。重要な点は、高速でロバストな逐次的意思決定に対応するために、事後的・多様性相乗タスクサンプリング(PDTS)と呼ばれる実装が容易な手法を提案することである。広範な実験により、PDTSがロバストな能動的タスクサンプリングの可能性を引き出し、困難なタスクにおけるゼロショットと少数ショット適応のロバスト性を大幅に改善し、特定のシナリオ下では学習プロセスさえも加速することが示された。我々のプロジェクトのウェブサイトはhttps://thu-rllab.github.io/PDTS_project_page。
要約(オリジナル)
Task robust adaptation is a long-standing pursuit in sequential decision-making. Some risk-averse strategies, e.g., the conditional value-at-risk principle, are incorporated in domain randomization or meta reinforcement learning to prioritize difficult tasks in optimization, which demand costly intensive evaluations. The efficiency issue prompts the development of robust active task sampling to train adaptive policies, where risk-predictive models are used to surrogate policy evaluation. This work characterizes the optimization pipeline of robust active task sampling as a Markov decision process, posits theoretical and practical insights, and constitutes robustness concepts in risk-averse scenarios. Importantly, we propose an easy-to-implement method, referred to as Posterior and Diversity Synergized Task Sampling (PDTS), to accommodate fast and robust sequential decision-making. Extensive experiments show that PDTS unlocks the potential of robust active task sampling, significantly improves the zero-shot and few-shot adaptation robustness in challenging tasks, and even accelerates the learning process under certain scenarios. Our project website is at https://thu-rllab.github.io/PDTS_project_page.
arxiv情報
| 著者 | Yun Qu,Qi Cheems Wang,Yixiu Mao,Yiqin Lv,Xiangyang Ji |
| 発行日 | 2025-05-02 08:16:08+00:00 |
| arxivサイト | arxiv_id(pdf) |