Introspective Action Advising for Interpretable Transfer Learning

要約

転移学習を深層強化学習に適用すると、関連するソース タスクで学習されたポリシーからの知識を転送することで、ターゲット タスクでのポリシーのトレーニングを高速化できます。
これは通常、同じモデル アーキテクチャを使用するという制約の下で、トレーニング前にソース ポリシーからターゲット ポリシーに事前トレーニングされた重みをコピーすることで実現されます。
しかし、これには広範囲の状態分布にわたって学習された堅牢な表現が必要なだけでなく、単一のタスクで訓練された専門モデル間での伝達に失敗することがよくありますが、それはほとんど解釈不可能であり、どのような知識が伝達されるのかを示すものはほとんどありません。
この研究では、アクションアドバイスに基づいてタスク間で学習を転移するための代替アプローチを提案します。このアプローチでは、ソースタスクで訓練を受けた教師がターゲットタスクでの生徒の探索を積極的にガイドします。
内省を通じて、教師は、アドバイスが生徒にとって有益であり、与えるべきである場合と、そうでない場合を特定することができます。
私たちのアプローチでは、基礎となる表現にとらわれずにポリシー間で知識を転送できます。また、これにより Gridworld 環境と Atari 環境の収束率が向上すると同時に、どのような知識が転送されるのかについての洞察が得られることが実証的に示されています。

要約(オリジナル)

Transfer learning can be applied in deep reinforcement learning to accelerate the training of a policy in a target task by transferring knowledge from a policy learned in a related source task. This is commonly achieved by copying pretrained weights from the source policy to the target policy prior to training, under the constraint that they use the same model architecture. However, not only does this require a robust representation learned over a wide distribution of states — often failing to transfer between specialist models trained over single tasks — but it is largely uninterpretable and provides little indication of what knowledge is transferred. In this work, we propose an alternative approach to transfer learning between tasks based on action advising, in which a teacher trained in a source task actively guides a student’s exploration in a target task. Through introspection, the teacher is capable of identifying when advice is beneficial to the student and should be given, and when it is not. Our approach allows knowledge transfer between policies agnostic of the underlying representations, and we empirically show that this leads to improved convergence rates in Gridworld and Atari environments while providing insight into what knowledge is transferred.

arxiv情報

著者 Joseph Campbell,Yue Guo,Fiona Xie,Simon Stepputtis,Katia Sycara
発行日 2023-06-21 14:53:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク