Robust Decision-Focused Learning for Reward Transfer

要約

タイトル:報酬転移のための堅牢な意思決定重点学習

要約:

-DFモデルベースの強化学習は、高い報酬を得るために最も関連性の高いMDP動態の学習に焦点を当てることができる強力なアルゴリズムとして最近導入された。

-このアプローチは報酬を直接最適化することに焦点を当てることで、エージェントのパフォーマンスを向上させるが、MLEの観点からはより正確な動態を学習しなくなるため、報酬関数の変更に対して脆弱になる可能性がある。

-本研究では、堅牢な意思決定重点(RDF)アルゴリズムを開発し、DFソリューションの非同定性を利用して、期待収益を最大化するモデルを学習すると同時に、報酬関数の変更に対して堅牢なモデルを学習する。

-おもちゃの例や医療シミュレータで、RDFがDFの報酬関数の変更に対する堅牢性を大幅に向上させ、エージェントが得る全体的な収益を減少させることなく、示されている。

要約(オリジナル)

Decision-focused (DF) model-based reinforcement learning has recently been introduced as a powerful algorithm which can focus on learning the MDP dynamics which are most relevant for obtaining high rewards. While this approach increases the performance of agents by focusing the learning towards optimizing for the reward directly, it does so by learning less accurate dynamics (from a MLE standpoint), and may thus be brittle to changes in the reward function. In this work, we develop the robust decision-focused (RDF) algorithm which leverages the non-identifiability of DF solutions to learn models which maximize expected returns while simultaneously learning models which are robust to changes in the reward function. We demonstrate on a variety of toy example and healthcare simulators that RDF significantly increases the robustness of DF to changes in the reward function, without decreasing the overall return the agent obtains.

arxiv情報

著者 Abhishek Sharma,Sonali Parbhoo,Omer Gottesman,Finale Doshi-Velez
発行日 2023-04-06 20:47:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク