要約
アクションアドバイスは、教師と生徒のパラダイムに基づいた強化学習のための知識伝達手法です。
専門の教師は、生徒のサンプル効率とポリシーのパフォーマンスを向上させるために、トレーニング中に生徒にアドバイスを提供します。
このようなアドバイスは、通常、状態と行動のペアの形で与えられます。
ただし、これにより、学生が新しい状態を推論して適用することが困難になります。
私たちは、教師が行動に関するアドバイスと、その行動が選ばれた理由を示す関連する説明を提供する、説明可能な行動アドバイスを導入します。
これにより、生徒は学んだことを内省することができ、アドバイスを一般化できるようになり、たとえ教師が最適ではない環境であっても、サンプル効率と学習パフォーマンスの向上につながります。
私たちは、私たちのフレームワークがシングルエージェントシナリオとマルチエージェントシナリオの両方で効果的であり、最先端の手法と比較して保険収益と収束率が向上していることを経験的に示しています。
要約(オリジナル)
Action advising is a knowledge transfer technique for reinforcement learning based on the teacher-student paradigm. An expert teacher provides advice to a student during training in order to improve the student’s sample efficiency and policy performance. Such advice is commonly given in the form of state-action pairs. However, it makes it difficult for the student to reason with and apply to novel states. We introduce Explainable Action Advising, in which the teacher provides action advice as well as associated explanations indicating why the action was chosen. This allows the student to self-reflect on what it has learned, enabling advice generalization and leading to improved sample efficiency and learning performance – even in environments where the teacher is sub-optimal. We empirically show that our framework is effective in both single-agent and multi-agent scenarios, yielding improved policy returns and convergence rates when compared to state-of-the-art methods
arxiv情報
著者 | Yue Guo,Joseph Campbell,Simon Stepputtis,Ruiyu Li,Dana Hughes,Fei Fang,Katia Sycara |
発行日 | 2023-06-16 15:20:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google