Policy-regularized Offline Multi-objective Reinforcement Learning

要約

本論文では,オフラインの軌跡データのみを利用して,多目的RLのポリシーを学習することを目的とする.この目的を達成するために、単一目的のオフラインRL問題で広く採用されているオフライン政策正則化法を多目的設定に拡張する。しかしながら、このような手法はオフラインMORL設定において、プリファレンス非整合実証問題という新たな課題に直面する。我々はこの問題に対する2つの解決策を提案する:1)行動選好の近似により選好矛盾のある実証をフィルタリングする、2)高い政策表現力を持つ正則化技術を採用する。さらに、1つの政策ネットワークを用いて一連の政策を同時に学習するために、政策正則化オフラインRLに選好条件付きスカラ更新法を統合し、様々な選好に対する多数の個別政策の学習によって引き起こされる計算コストを削減する。最後に、正則化重みの適応を導入し、展開中に任意のターゲット嗜好に対する適切な正則化重みを動的に決定する。様々な多目的データセットを用いた実証結果により、本アプローチがオフラインMORL問題を解く能力を持つことを示す。

要約(オリジナル)

In this paper, we aim to utilize only offline trajectory data to train a policy for multi-objective RL. We extend the offline policy-regularized method, a widely-adopted approach for single-objective offline RL problems, into the multi-objective setting in order to achieve the above goal. However, such methods face a new challenge in offline MORL settings, namely the preference-inconsistent demonstration problem. We propose two solutions to this problem: 1) filtering out preference-inconsistent demonstrations via approximating behavior preferences, and 2) adopting regularization techniques with high policy expressiveness. Moreover, we integrate the preference-conditioned scalarized update method into policy-regularized offline RL, in order to simultaneously learn a set of policies using a single policy network, thus reducing the computational cost induced by the training of a large number of individual policies for various preferences. Finally, we introduce Regularization Weight Adaptation to dynamically determine appropriate regularization weights for arbitrary target preferences during deployment. Empirical results on various multi-objective datasets demonstrate the capability of our approach in solving offline MORL problems.

arxiv情報

著者 Qian Lin,Chao Yu,Zongkai Liu,Zifan Wu
発行日 2024-01-04 12:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク