要約
意思決定重視 (DF) モデルベースの強化学習は、高いリターンを得るために最も関連性のある MDP ダイナミクスの学習に重点を置くことができる強力なアルゴリズムとして最近導入されました。
このアプローチは報酬を直接最適化することでエージェントのパフォーマンスを向上させますが、最尤性の観点から精度の低いダイナミクスを学習することによって実現します。
私たちは、報酬関数が複数の目的に対する好みによって定義されている場合、DF モデルは目的の好みの変化に敏感である可能性があることを実証します。この研究では、非識別性を利用する堅牢な意思決定重視 (RDF) アルゴリズムを開発します。
DF ソリューションを利用して、期待収益を最大化するモデルを学習すると同時に、複数の目的に対する優先順位の変化に移行するモデルを学習します。
2 つの合成ドメインと 2 つのヘルスケア シミュレーターで RDF の有効性を実証し、トレーニング時間の収益を損なうことなく、報酬関数の変化に対する DF モデル学習の堅牢性が大幅に向上することを示します。
要約(オリジナル)
Decision-focused (DF) model-based reinforcement learning has recently been introduced as a powerful algorithm that can focus on learning the MDP dynamics that are most relevant for obtaining high returns. While this approach increases the agent’s performance by directly optimizing the reward, it does so by learning less accurate dynamics from a maximum likelihood perspective. We demonstrate that when the reward function is defined by preferences over multiple objectives, the DF model may be sensitive to changes in the objective preferences.In this work, we develop the robust decision-focused (RDF) algorithm, which leverages the non-identifiability of DF solutions to learn models that maximize expected returns while simultaneously learning models that transfer to changes in the preference over multiple objectives. We demonstrate the effectiveness of RDF on two synthetic domains and two healthcare simulators, showing that it significantly improves the robustness of DF model learning to changes in the reward function without compromising training-time return.
arxiv情報
著者 | Abhishek Sharma,Sonali Parbhoo,Omer Gottesman,Finale Doshi-Velez |
発行日 | 2024-01-01 16:45:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google