Reward Adaptation Via Q-Manipulation

要約

この論文では、適応に報いる新しいソリューション(RA)を提案します。これは、学習エージェントが同じドメインダイナミクスの下で先験的に学習した1つまたは複数の既存の動作に基づいてターゲット報酬関数に適応する問題です。
ターゲットの動作をゼロから学ぶことは可能ですが、利用可能なソース動作を考えると、しばしば非効率的です。
私たちの仕事は、Q関数の操作を介したRAへの新しいアプローチを表しています。
ターゲット報酬関数がソース報酬関数の既知の関数であると仮定すると、RAへのアプローチはQ関数の境界を計算します。
値の反復と同様に、境界を引き締めるための反復プロセスを導入します。
これにより、学習が開始される前に、ターゲットドメインでのアクションプルーニングが可能になります。
そのような方法をQ操作(Q-M)と呼びます。
剪定戦略が返されたポリシーの最適性に影響を与えないことを正式に証明し、サンプルの複雑さを改善することを経験的に示しています。
Q-Mは、さまざまな合成およびシミュレーションドメインで評価され、その有効性、一般化、および実用性を実証します。

要約(オリジナル)

In this paper, we propose a new solution to reward adaptation (RA), the problem where the learning agent adapts to a target reward function based on one or multiple existing behaviors learned a priori under the same domain dynamics but different reward functions. Learning the target behavior from scratch is possible but often inefficient given the available source behaviors. Our work represents a new approach to RA via the manipulation of Q-functions. Assuming that the target reward function is a known function of the source reward functions, our approach to RA computes bounds of the Q function. We introduce an iterative process to tighten the bounds, similar to value iteration. This enables action pruning in the target domain before learning even starts. We refer to such a method as Q-Manipulation (Q-M). We formally prove that our pruning strategy does not affect the optimality of the returned policy while empirically show that it improves the sample complexity. Q-M is evaluated in a variety of synthetic and simulation domains to demonstrate its effectiveness, generalizability, and practicality.

arxiv情報

著者 Kevin Vora,Yu Zhang
発行日 2025-03-17 17:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク