Learning Control Policies for Variable Objectives from Offline Data

要約

オフライン強化学習は、特に環境との直接対話が利用できない場合に、動的システムの高度な制御戦略を取得するための実行可能なアプローチを提供します。
この論文では、可変目標ポリシー (VOP) と呼ばれる、モデルベースのポリシー検索方法の概念的拡張を紹介します。
このアプローチでは、報酬関数をパラメータ化するさまざまな目的にわたって効率的に一般化するようにポリシーがトレーニングされます。
ポリシーへの入力として渡される目標を変更することで、ユーザーは追加の観察バッチを収集したり再トレーニングしたりすることなく、実行時に動作を調整したり、最適化ターゲットのバランスを再調整したりする自由が得られることを実証します。

要約(オリジナル)

Offline reinforcement learning provides a viable approach to obtain advanced control strategies for dynamical systems, in particular when direct interaction with the environment is not available. In this paper, we introduce a conceptual extension for model-based policy search methods, called variable objective policy (VOP). With this approach, policies are trained to generalize efficiently over a variety of objectives, which parameterize the reward function. We demonstrate that by altering the objectives passed as input to the policy, users gain the freedom to adjust its behavior or re-balance optimization targets at runtime, without need for collecting additional observation batches or re-training.

arxiv情報

著者 Marc Weber,Phillip Swazinna,Daniel Hein,Steffen Udluft,Volkmar Sterzing
発行日 2023-08-11 13:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク